Erorile de rotunjire a numerelor cu un punct flotant pot determina o priză multi -cross să fie egală cu precizie sau,apoi ecuația de entropie încrucișată va conține un membru al jurnalului (O), egală cu infinitul negativ, funcția rezolvăaceastă problemă, Calcularea în jurnalul de retur (e) , Unde este un număr pozitiv minuscul, acesta este motivul pentrucare nu am folosit o funcție de activare multi -transilitate înainte de a exista și o altă funcție cu un nume care ianote sub formă de vectori codificați unitari (în loc de numere întregi de la numărul de clase minus ) Avem o funcție arețelei neuronale, precum și costurile funcționale, iar acum trebuie să determine optimizatorul care va ajustaparametrii modelului pentru a minimiza funcția de cost a nimicului nou; Ceva similar pe care l -am făcut în capitolul IIneural Rețeaua și instruirea profundă Ultimul pas important în etapa de construcție este asociat cu modul de evaluare amodelului ca măsură de productivitate, vom folosi primul lucru corect pentru fiecare eșantion, vom afla dacă prognozarețelei este corectă, prin verificare, corespondență la Sau nu cel mai înalt logat la clasa țintă pentru aceasta,puteți utiliza funcția, returnează un tensor dimensional, umplut cu valori bulevsky și, prin urmare, trebuie să aducemastfel de valori bulevsky la valorile cu un punct plutitor Și apoi calculați media pe care o va da Corectitudineagenerală a rețelei Eâme IZII are Redeee MC -J (TF (CO; T, F OAT)), în plus, ca de obicei, trebuie să creăm un nod lainițial toate variabilele și vom crea, de asemenea, o instanță pentru Salvați parametrii modelului instruit Pe discul fir v twin sav despre funcția de activare a ELU este în mare măsură similară cu funcția REU, dar are mai multe diferențeimportante, în primul rând, acceptă valori negative atunci când z; (f) strategia f r funcționează remarcabil Darnecesită ajustarea G] și viteza de antrenament va scădea pe indicator la fiecare pas Programul de putere Setează vitezade antrenament în>; (f) rj ( + g) ~ cu hiperparameter este de obicei setat în acest lucru similar cu exponențialulexponențial Program, dar viteza antrenamentului este mult căderea Mai lent partea a II -a a rețelelor neuronale și ainstruirii profunde în articolul de Andrew Senior și alții, publicat în anul, performanța mai multor programe deînvățare este comparată, când rețelele neuronale profunde învață să recunoască vorbirea folosind optimizarea momentuluide către autori Am ajuns la concluzia că un program de performanță și un program exponențial funcționează bine într -unastfel de mediu, dar au preferat grafica exponențială, deoarece este mai ușor pentru implementare, mai ușor pentruajustare și ușor mai rapid converg soluția optimă la implementarea învățării programa Cu TensorFlow este destul desimplu! pi) ni-, '') După instalarea valorilor hiperparametrelor, creăm o variabilă neexplorată (inițializată) conceputăpentru a stoca numărul de învățare, apoi determinăm viteza de învățare slăbită exponențial (cu fj și d) folosindFuncție de la TensorFlow, creăm un optimizator (În acest exemplu) Cu utilizarea acestei viteze slăbite de antrenament,creăm în sfârșit o operație de antrenament, provocând o metodă de optimizator; T pentru a transmite variabila lui, el vaavea grijă Este vorba despre creșterea ei! Deoarece algoritmii Adagrad, RMSProp și Adam reduc automat viteza deinstruire în procesul de învățare, pe lângă un program suplimentar de învățare, nu este nevoie de alți algoritmi deoptimizare pentru utilizarea unei slăbiri exponențiale sau a programului de performanță Accelerați convergența „Unstudiu empiric al ratelor de învățare în rețelele neuronale profunde pentru recunoașterea vorbirii” („Examinareaempirică a rețelelor de învățare pentru vorbirea pentru a recunoaște vorbirea”), E senior și altele) care predă rețeleneuronale profunde Pot descrie elefantul patru parametri și, cu ajutorul celor cinci - să -l fac pe un trunchi -traducerea afirmației lui John von Neumann, al cărui original a fost citat de Freeman Dyson în eseul „O întâlnire cuEnrico Fermi” („ Întâlnirea cu Enriko Fermi ”) Revista, Tom OD), rețelele neuronale profunde de PA au de obicei zeci demii de parametri și, uneori, milioane de parametri, datorită unui număr atât de mare de parametri, rețeaua are un gradincredibil de libertate și poate fi pregătită pentru o mare varietate de seturi de date complexe, dar aceasta este Flexibilitatea uriașă înseamnă, de asemenea, o predispoziție la recalificare printr -un set de instruire cu milioane deparametri, puteți încadra rețeaua la o grădină zoologică întreagă În această secțiune, vom prezenta unele dintre celemai populare tehnici pentru autoritățile de reglementare pentru rețelele neuronale și vom arăta cum să le implementăm Utilizarea terminării timpurii, reglementării și deconectării Tensorflow, reglementarea tach-norm (regularizare maximă) Iar datele datelor (creșterea datelor), care evită respingerea setului de instruire, constă în încetarea timpurie (purși simplu întrerupeți pregătirea în capitol, când Performanța sa la setul de testare începe să se încadreze înimplementarea încetării timpurii Prin TensorFlow prevede evaluarea modelului pe testarea setată prin intervale regulate(să zicem, la fiecare pași) și la păstrarea imaginii „câștigătoare”, dacă depășește imaginile anterioare „câștigătoare” Calculați numărul de pași din moment Ultima imagine „câștigătoare” și întrerupe antrenamentul atunci când acest număr aatins o anumită limită (de exemplu, pași) apoi restabiliți ultima imagine „câștigătoare”, deși încetarea timpurie înpractică funcționează foarte bine, puteți obține de obicei mult mai mult Partea a II -a rețele neuronale și autoritățide reglementare de învățare profundă și profund pe măsură ce postăm Aboruit în raport cu modelele liniare simple dincapitol, puteți utiliza regulatori și pentru a limita Balanta conexiunilor rețelei neuronale (dar de obicei nu suntdeplasările sale) pentru a implementa acest lucru folosind TensorFlow poate fi adăugată prin adăugarea de regulatoriadecvați la funcția de cost, de exemplu, presupunând prezența unui strat ascuns cu greutăți și un strat de ieșire cugreutăți, Iată cum să aplici reglementarea construcției rețelei neuronale I F GET GRAPL IMPLACE TENSOR DE NEN "I FGRAPI DEFAȘTE GET TEI> SAU DE AME S, E HYPERPARAMETER LOC LOC 'Reduce mear ntropj, nam> F , Adux f ab )) Reduce Sua (f( -)) dd (MSE los, ICA * Reg pierderi, nume, cu toate acestea, dacă există multe straturi, atunci această abordare nueste deosebit de convenabilă pentru fericire, TensorFlow oferă cea mai bună opțiune pentru Multe funcții care creeazăvariabile (cum ar fi sau fie sau sau), acceptă pentru fiecare argument variabil (să zicem), puteți transmite oricefuncție care acceptă greutăți ca argumente și returnează pierderea corespunzătoare a funcției de reglementare I șireturnați o astfel de funcție în următoarea Codul despre care se spune că este colectat împreună, dens, ahor sess II ITîn intervalul de gamă Un cod mult mai curat, nu este? Suplimentul ultimei recepții de reglementare, supliment de date,prevede generarea de noi eșantioane de instruire pe baza Acest lucru, care crește artificial dimensiunea setului deantrenament, o astfel de acțiune va reduce recalificarea și acest lucru îl face o primire a viclenei de reglementare îngenerarea de probe de antrenament realiste; În mod ideal, o persoană nu ar trebui să poată spune ce probe au fostgenerate, dar care nu există, în plus, o simplă adăugare de zgomot alb nu va ajuta; Modificările pe care le utilizațitrebuie să studieze (zgomotul alb nu este susceptibil), șeful de antrenament în rețele neuronale profunde, de exemplu,dacă modelul dvs este conceput pentru a clasifica fotografiile ciupercilor Apoi, puteți să vă deplasați ușor, să văîntoarceți și să schimbați dimensiunea fiecărei fotografii din setul de antrenament la diferite valori, apoi adăugațifotografiile rezultate la setul de antrenament (orez), acest lucru va forța modelul să devină mai tolerant la poziție,orientare și dimensiune Ciupercile din fotografie Dacă doriți ca modelul să fie mai tolerant la condițiile deiluminare, atunci puteți, într -un mod similar, să generați multe imagini cu contraste diferite care sugerează căciupercile sunt simetrice, puteți transforma și fotografiile pe orizontal datorită combinației Aceste transformări suntcapabile să vă crească semnificativ setul de predare Generarea orezului de noi eșantioane de antrenament bazate pe celeexistente este adesea preferabilă pentru a genera probe de antrenament pe zbor, în loc să irosească memoria și lățimeade bandă a rețelei Tensorflow, biblioteca TensorFlow Mai multe imagini care manipulează operațiunile, inclusiv mișcarea(schimbarea), întoarcerea, schimbarea dimensiunii, întoarcerea și tăierea, precum și reglarea luminozității,contrastului, saturației și nuanței (pentru informații suplimentare, contactați documentația de pe interfața ART),facilitează implementarea a implementării de Suplimentul de date pentru datele pentru seturi Datele cu imagini rețeleneuronale din partea a II -a și o pregătire profundă este o altă tehnică puternică pentru învățarea rețelelor neuronalefoarte profunde este introducerea unei conexiuni de ocolire se referă la adăugarea de intrare a stratului la ieșireaunui strat superior, vom explora această idee În capitol, când vorbim despre rețele reziduale profunde din acestcapitol, am dezvăluit o gamă largă de tehnici și este posibil să fiți interesat de care dintre ele ar trebui utilizateîn majoritatea cazurilor configurația, inițializarea funcției din tabel Activare regulator de normalizare OptimizatorOptimizer Învățare grafică Inițializare XE ELU PACHET PACHET Opriți Desigur, gradientul accelerat Nesterov, ar trebui să încercați să folosiți părți ale unei rețele neuronale pre-instruite dacă ați reușit să găsiți o rețea care să rezolve o problemă similară o astfel de configurație standard Poate necesita ajustări dacă nu puteți găsi o viteză bună de antrenament (convergența a fost foarte lentă, așa că ațicrescut viteza de antrenament, iar acum convergența a devenit rapidă, dar corectitudinea rețelei s -a dovedit a fisuboptimală), apoi Încercați să adăugați un program de învățare, cum ar fi Exponențial Declinul în cazul în care setuldvs de antrenament este câteva mici, atunci puteți implementa suplimentul de date dacă aveți nevoie de un model rar,atunci puteți adăuga reglementare la amestec (și, în plus, zero greutăți minuscule după antrenament) atunci când aveținevoie de un model mai rarefiat , apoi În loc să optimizați Adam, puteți încerca să utilizați FTRL împreună cu capul dereglementare, capul rețelelor neuronale profunde, dacă sunteți interesat de un model de prelucrare a fulgerului întimpul execuției, atunci puteți decide să abandonați normalizarea pachetului și poate fi înlocuit cu activarea ELUfuncţie Varianta REU cu o scurgere va ajuta, de asemenea, prezența unui model rarefiat cu astfel de recomandări, acumsunteți gata să instruiți rețele foarte adânci - dar numai dacă sunteți extrem de răbdător! Dacă există un singur capătal procesului de învățare, poate va trebui să așteptați zile întregi Sau chiar și luni în capitolul următor, vomdiscuta despre modul de utilizare a bibliotecii TensorFlow distribuite pentru a antrena și lansa modele pe multe servereși procesoare grafice, indiferent dacă toate greutățile pot inițializa aceeași valoare, cu condiția să fie Este alesîntâmplător folosind inițializarea Hee? Este posibilă inițializarea membrilor deplasării cu valoarea O? Care sunt celetrei avantaje ale funcției de activare a ELU în comparație cu REU în cazurile în care ați folosi următoarele funcții deactivare a ELU cu scurgeri (și soiuri) REU, Tangens hiperbolic, logistică și multi -cross? Ce se poate întâmpla dacă întimpul aplicației setați un hiperparameter într -o valoare prea aproape de (de exemplu,)? Care sunt trei moduri de aobține un model rarefiat, deconectarea procesului de învățare încetinește? Încetinește (Aceasta este dezvoltareaprognozelor pe probe noi)? Antrenament profund a) Construiți o rețea DNN cu cinci straturi ascunse în neuroni înfiecare, inițializarea XE și funcția de activare Elu B) folosind optimizarea ADAM și terminarea timpurie, încercați săinstruiți rețeaua Datele datelor sunt mnist, dar numai pentru numere, la următorul exercițiu vom folosi rețeleleneuronale din partea a II -a și cunoștințele profunde de cunoștințe pentru numere, veți avea nevoie de un strat multi-cross cu cinci neuroni; În plus, cum Întotdeauna, asigurați -vă păstrarea punctelor de control prin intervale regulateși salvați modelul final, astfel încât, ulterior, să poată fi reutilizat pentru a fi reutilizabil) Reglațihiperparametrele folosind verificări încrucișate și vedeți cum precizia ați putut obține D) acum încercați să adăugațiun pachet Normalizarea și compararea curbelor de învățare este convergența mai rapidă decât înainte? Acest lucru oferăacest model mai bun? e) Modelul recalifică un set de antrenament? Încercați să adăugați o oprire la fiecare strat și sărepetați antrenamentul a făcut acest ajutor? Instruire prin transmiterea cunoștințelor a) Creați o nouă rețea DNN, careutilizează toate straturile ascunse pre -instruite ale modelului anterior, înghețați -le și înlocuiți stratul multi-cross cu un nou strat b) Învață o nouă rețea DNN cu numere, folosind doar imagini pentru Număr și remediați -l Timpul,cât a durat în ciuda unui număr atât de mic de eșantioane, ai putea obține o precizie ridicată? c) Încercați să facețicach straturi congelate și să învățați din nou modelul cât de repede se întâmplă acum? d) Încercați să reutilizați doarpatru straturi ascunse În loc de cinci, puteți obține o precizie mai mare? e) Decongelați cele două straturi ascunsesuperioare și continuați -vă antrenamentul, ați reușit să forțați modelul să funcționeze și mai bine? Instruirepreliminară pe sarcina auxiliară a) În acest exercițiu veți construi o rețea DNN, care compară două imagini alenumerelor mnist și produce prognoza, indiferent dacă prezintă același număr, atunci veți folosi straturile inferioareale rețelei rezultate pentru a învăța clasificatorul mnist, folosind datele de predare ale unui volum foarte mic,începeți Cu capul antrenamentului rețelelor neuronale profunde de creare a două rețele DNN (numiți -le DNN A și DNNB), care sunt similare cu rețeaua construită mai devreme, dar fără un strat de ieșire, fiecare rețea DNN ar trebui săconțină cinci straturi ascunse prin intermediul neuronilor și aplicați Inițializarea HEE și utilizați funcția deactivare ELU Apoi, adăugați un alt strat ascuns cu elemente pe ambele rețele DNN pentru aceasta, trebuie să aplicațifuncția TensorFlow la Combinați ieșirile ambelor rețele DNN pentru fiecare eșantion Apoi transmiteți rezultatul prin stratul ascuns Adăugațiîn sfârșit stratul de ieșire cu singurul neuron folosind funcția logistică a activării b) împărțiți antrenamentul mnistîn două părți ale piesei ar trebui să conțină imagini, iar partea - imaginile creează o funcție care generează geanta deantrenament În cazul în care fiecare eșantion este o pereche de imagini mnist selectate din unitate, o jumătate dineșantioanele de antrenament ar trebui să fie perechi de imagini care aparțin acelei clase în sine, iar cealaltă jumătatear trebui să fie imagini din clase diferite pentru fiecare pereche de etichetă Pregătirea ar trebui să fie egală dacăimaginile aparțin aceleiași clase sau, dacă clasele diferite b) învață rețeaua DNN pe setul de antrenament rezultatpentru fiecare pereche de imagini pe care le puteți transmite prima imagine în Rețeaua DNN și a doua - la rețeaua DNNdin rețeaua DNN, rețeaua completă va învăța treptat să raporteze dacă două imagini aparțin aceleiași clase D) Creațiacum o nouă rețea DNN datorită consumului și înghețării și înghețului ascuns Straturile DNN A și adăugați un OutleMulti -Cross cu neuroni pentru a învăța această rețea în piese și a vedea dacă puteți obține performanțe ridicate, înciuda prezenței doar a imaginilor pentru clasa de soluții ale exercițiilor de mai sus, sunt disponibile în ApendiceleA Partea a II -a rețele neuronale și învățarea profundă a capului Utilizarea tensiunii de tensiune pentru a distribuicalcule între dispozitive și servere din capitol a discutat mai multe tehnici care pot accelera semnificativ pregătireascărilor mai potrivite, normalizarea pachetelor, optimizatoare avansate și T Cu toate acestea, chiar și cu toateaceste tehnici, instruirea într -o rețea neuronală mare pe o singură mașină cu un procesor central poate ocupa zile sauchiar o săptămână în acest capitol, vom vedea cum să utilizăm biblioteca TensorFlow pentru a distribui calcule Printrenumeroasele dispozitive (procesoare centrale (procesoare) și procesoare grafice (GP)) și execuția lor paralelă (orez),vom distribui mai întâi calculele între dispozitive pe o singură mașină și apoi între multe dispozitive de pe multemașini, suport pentru distribuit Calculele bibliotecii TensorFlow este unul dintre principalele sale avantaje încomparație cu alte cadre pentru lucrul cu rețelele neuronale, oferă un control complet asupra modului de a descompune(sau de a reproduce) un grafic de calcul între dispozitive și servere și, de asemenea, vă permite să paraleleți și Pentru a sincroniza operațiunile cu modalități flexibile, astfel încât există posibilitatea de a alege orice abordarepentru a scăpa, analizăm o serie dintre cele mai populare abordări pentru paralelizarea implementării și instruiriirețelei neuronale în loc să aștepți săptămâni în timp ce algoritmul de învățare își termină munca , poti Pentru areduce așteptarea la doar câteva ore, aceasta înseamnă nu numai economisirea unei cantități imense de timp, ci și oposibilitate mult mai simplă de a experimenta cu o varietate de modele și reținerea frecventă a modelelor de date noi,printre alte scenarii minunate de utilizare Pasajarea este inclusă în studiul unui spațiu de hiperparameter mult maimare, cu o ajustare exactă a modelului și o rulare eficientă de ansambluri mari de rețele neuronale, dar înainte de arula, trebuie să învățăm să mergem, să începem cu paralelizarea graficelor simple între mai multe GP Pe o mașină,puteți obține adesea o creștere semnificativă a performanței, pur și simplu conectând placa GP la mașină în multecazuri, acest lucru va fi suficient; Nu trebuie să folosiți deloc multe mașini, de exemplu, de obicei, puteți antrena orețea neuronală Mai repede cu utilizarea GP pe o singură mașină decât GP-ul pe mai multe mașini (datorită uneiîntârzieri suplimentare asociate interacțiunii prin rețea într-un mediu cu mai multe masă), în această secțiune, vomafla cum să configurați mediul, astfel încât Că biblioteca TensorFlow poate folosi multe plăci GP -ul de pe o mașină,apoi vom vedea cum să distribuiți operațiunile între dispozitive gratuite și să le efectuați în rețelele neuronale înmod paralel II și instalarea profundă de antrenament I pentru a rula tensorflow pe multe plăci ale GP, mai întâi Trebuie să vă asigurați că plăcile GP disponibile au o posibilitate de calcul a NVIDIA (capacitatea de calcul NVIDIA),mai mult sau egale cu aceste plăci includ Nvidia Titan, Titan X, K și K (compatibilitatea altor plăci poate fiverificată de link) dacă Nu aveți plăci GP, apoi puteți utiliza găzduirea cu posibilitatea GP, cum ar fi Amazon AWS,instrucțiuni detaliate de instalare a fluxului de tensiune cu Python pe instanța AWS GPU sunt disponibile pe blogul IGAAVSEC pentru a le distribui la cea mai recentă versiune a TensorFlow Nu ar trebui să fie prea dificil, în plus,compania Google a lansat un serviciu cloud numit numărarea graficelor în mai, în luna mai, că platforma Google include acumservere echipate (-ca procesoare specializate pentru învățarea automată și funcționează mult mai repede decâtprocesoarele grafice atunci când rezolvă multe probleme, desigur, o altă opțiune implică achiziția propriei sale plăți aGP Tim Dettmers, a făcut o publicație excelentă pe blogul său, care va ajuta cu alegerea și aceasta Ar trebui să oactualizeze în mod regulat și să instaleze versiunea adecvată a bibli tekda și cudnn (CUDA și CUDNNN ѵB Dacă aplicațiinstalarea binară TensorFlow) și, de asemenea, configurați mai multe variabile ale mediului, astfel încât bibliotecaTensorFlow să știe unde Cuda și Cudnn sunt detaliile de instalare se vor schimba probabil destul de curând, așa că estemai bine să urmați instrucțiunile de pe tensorflow -ul tensorflow Site -ul NVIDIA CUDA permite dezvoltatorilor săutilizeze GP -ul, susținând CUDA, pentru toate tipurile de calcule (Asta nu numai pentru a accelera procesarea grafică) Biblioteca NVIDIA CUDNN este o bibliotecă primitivă accelerată pentru ca capitolul să utilizeze TensorFlow pentru adistribui calcule între dispozitive și servere, apoi rețele DNN, oferă implementări optimizate ale calculelor DNNgenerale, cum ar fi straturile de activare, normalizarea, direct Și pachetele inverse și organizarea pool -ului(capitolul) Biblioteca face parte din Kitul SDK de învățare profundă Nvidia (ține cont de faptul că va trebui să creezeun cont de dezvoltator NVIDIA pentru descărcarea sa) TensorFlow folosește Cuda și Cudnn pentru a controla Plăci GP șicalcule ale calculelor (orez) Tensorflow Tensorflow CP CUDNN CUDNNN pentru a verifica corectitudinea instalației CUDA,puteți utiliza lista de plăci GP disponibile, precum și procesele efectuate pe fiecare placă de $ nvidia-SMI Wed Sep i NVIDIA-SMI Versiunea driverului GPU Nume Persistence-M | BUS-DISP A PWR Utilizare Capl Memory-Utilizare volatilăUncheCor ECC GPU-Util Calcul M-a Fan TETR GRID KOF OFF N A C P W MIV Partea implicită II rețele neuronale și instruireprofundă I Procese GPU Memory | Utilizarea numelui turului turistic GPU PID I Nu procesele de rulare găsite că amefectuat procese, nu ați detectat în cele din urmă, trebuie să instalați tensorflow cu suport GP dacă Ați creat unmediu izolat folosind VirtoAlenv, apoi activați calea sa $ CD $ ML CATALOGUL dvs de lucru Mo (de exemplu, $ Home ML) $sursă env bin activare, apoi setați o versiune adecvată a tensorflow cu instalarea sirz -upgrade Tensorflow-gpu Acumputeți deschide shell-ul de comandă Python și asigurați-vă că TensorFlow detectează și aplică în mod corespunzătorbibliotecile CUDA și CUDN, de ce să importăm tensorflow și să creeze libcublas biblioteca de încărcare DSO Local I DSOLoader CC a deschis cu succes biblioteca cuda libcudnn, așa că local I dso Loader CC a deschis cu succes biblioteca cudalibcufft, așa că local I DSO Loader CC a deschis cu succes biblioteca cuda libcuda So l local I DSO Loader, CC adeschis cu succes biblioteca cuda libcurand atât de local o i gpu init cc dispozitiv găsit cu proprietăți Nume grilă kmajor minor memoryclockrate (GHz) PCIBUSID TOTAL MEMORIE GIB GIB GIB GIB I GPU INIT CC DMA I GPU INIT CC Y I GPU DeviceCC Crearea dispozitivului TensorFlow (GPU -> (Nume dispozitiv Grid K, PCI Bus ID Capitolul TensorFlow pentru a distribuicalcule între dispozitive și servere arată bine! Biblioteca Tensorflow a găsit Cudnn Și cu ajutorul bibliotecii CUDA, arotit s -a întors În mod implicit, în mod implicit pentru a fi un fel de sortare, NVIDIA GRID K), când coloana s -aterminat pentru prima dată, TensorFlow surprinde automat toate RAM -ul în toate GP -ul disponibil, deci nu puteți Rulați cel de -al doilea program TensorFlow în timp ce primul Programul este executat dacă mai încercați, veți primiurmătorul mesaj de eroare (octeți) soluția poate consta în lansarea fiecărui proces pe placa GP pentru acest lucru estecel mai ușor de instalat Astfel că fiecare proces vede doar GP -ul permis permis Plăci, de exemplu, cum ați puteaîncepe două programe de dispozitive vizibile $ cuda o, Python Program L ru și într -un alt terminal $ cuda cudadispozitive Python Programul va fi programul Văzând doar plăci GP și (numerotate, respectiv și), iar programul estedoar GP și, respectiv, (numerotat) totul va funcționa normal (orez) O altă opțiune este de a informa TensorFlow În ceeace privește nevoia de a surprinde doar ponderea memoriei GP GP GP Partea II, rețele neuronale și antrenament profund, deexemplu, pentru a forța tensorflow să capteze doar memoria fiecărui GP, va trebui să creați un obiect, să instalațiacest lucru Parametrul B și Faceți o sesiune Utilizarea unei astfel de configurații despre acum două programe precum cele de mai sus pot fiefectuate în paralel cu utilizarea acelorași plăci GP (dar nu trei programe, T k x>) aruncați o privire la orezul GP GPGP dacă este în Veți introduce timpul de comandă pentru execuția ambelor programe, ar trebui să vedeți că fiecareproces deține RAM aproximativ obișnuit al fiecărui GP $ NVIDIA-SMI Procese GPU Memory Utilizarea memoriei GPU PID Numeleprocesului cu Python MIV cu Python MIV cu Python MIV cu capitolul Python MIV folosind TensorFlow pentru a distribuicalcule între dispozitive și servere, o altă opțiune prevede tensorflow ca memoria să fie capturată doar după cum estenecesar pentru acest lucru, va trebui să instalați Biblioteca TensorFlow nu scutește niciodată memoria după ce osurprinde (pentru a evita fragmentarea memoriei) și, prin urmare, după un timp, există încă o lipsă de memorie cuaceastă abordare pentru a garanta un comportament determinist În general, este logic să respectați una dintre opțiunileanterioare, astfel încât aveți o copie tensorflow instalată cu suport pentru procesoare grafice, să vedem cum să outilizați! Descrierea oficială a TensorFlow prezintă un algoritm prietenos care distribuie automat sala de operațieîntre Toate dispozitivele disponibile, ținând cont de lucruri, cum ar fi timpul de calcul măsurat în derulareaanterioară a numărului, evaluarea mărimii tensorilor de intrare și ieșire pentru fiecare operație, cantitatea accesibilăde RAM în fiecare dispozitiv, întârziere de comunicare la transferul datelor la dispozitiv și Dintre acestea, indiciiși restricții asupra utilizatorului și a multor alții, din păcate, acest algoritm dificil aranjat este utilizat încadrul companiei Google; El nu a fost lansat în versiunea TensorFlow cu un cod deschis, motivul excluderii sale sedatorează faptului că În practică, un mic set de reguli de plasare specificate de utilizator oferă un rezultat maieficient decât cel care poate oferi plasare dinamică, cu toate acestea, echipa de dezvoltatori TensorFlow funcționeazăpentru a îmbunătăți algoritmul de plasare dinamică și, poate, va deveni într -o zi suficient de bun pentru Eliberareapână atunci TensorFlow se bazează pe The Simple, care (după cum îl solicită numele) este „TensorFlow Scale MachineLearning pe scară largă pe sisteme distribuite heterogene” II rețele neuronale și antrenament profund ori de câte orieliminați graficul, dacă biblioteca TensorFlow trebuie să evalueze nodul care nu a fost încă plasat pe dispozitiv,atunci folosește un instrument simplu de cazare pentru a -l plasa împreună cu toată lumea Până acum, plasarea simplă nueste încă plasată de noduri, este subordonată regulilor enumerate mai jos dacă nodul a fost deja plasat pe dispozitiv cucoloana anterioară a graficului, atunci rămâne pe acest dispozitiv diferit, dacă Utilizatorul a atașat nodul pedispozitiv (așa cum va fi afișat în curând), apoi instrumentul de plasare pe care îl plasează pe acest dispozitiv,altfel unitatea este plasată implicit în GP sau în CPU, dacă procesoarele grafice sunt absente în timp ce puteți Vezi,plasarea operațiunilor pe dispozitivul adecvat depinde în principal de tine dacă Nu faceți nimic, atunci graficul va fiplasat în întregime într -un dispozitiv standard pentru a atașa noduri la un dispozitiv, trebuie să creați un bloc dedispozitive folosind o funcție, de exemplu, următorul cod atașează o variabilă și constantă la CPU, dar un nod demultiplicare Nu este atașat la niciun dispozitiv și, prin urmare, va fi plasat pe un dispozitiv standard Dispozitivulagregă toate CP -ul din sistemul multiprocesor în momentul în care nu există modalități de a atașa noduri la un procesorspecific sau de utilizarea numai a unui subset al tuturor Procesoare să verificăm Că un instrument simplu de cazarerespectă toate restricțiile de plasare de mai sus pentru acest lucru, puteți seta parametrul B, care raporteazămijloacele de a plasa nevoia de a scrie un mesaj în jurnal ori de câte ori capul utilizării TensorFlow Pentrudistribuirea calculelor între dispozitive și servere, acesta este un exemplu ~ g trou i i i i i crearea dispozitivuluiTensorFlow (GPU -> (dispozitiv Grid K, PCI idția izer run (ession sess) O lucrare Localhost Replica Task a cititloplica a citit Loplica A Redad Loplica A Read Loplica A Redad Loplic Task Cpu Mul Job Localhost Replica Task GPUAlocați job Local Localhost Replica Task CPU B Job LocalHost Replica Task On Inițial Job Job LocalHost Replica Biblioteca TensorFlow scrie un mesaj jurnalului, ceea ce indică faptul că a găsit plata GP (în acest caz Grid K) Primarulare a graficului (în acest caz, la inițializarea variabilei), este lansat un instrument simplu de plasare și plasatfiecare nod pe dispozitiv, care i -a fost atribuit așa cum era de așteptat, mesajele revistei arată că toate nodurilesunt plasate pe dispozitiv cu excepția nodului Înmulțire, care în cele din urmă se găsește pe un dispozitiv standard(atâta timp cât puteți ignora în siguranță prefixul; va fi foarte curând despre acesta), rețineți că atunci cândgraficul se va termina pentru a doua oară (în scopul calculării) Instrumentul de plasare nu este utilizat Deoarecetoate nodurile cerute de TensorFlow pentru calcul sunt deja plasate la crearea unui bloc de dispozitive în loc de unnume de dispozitiv, puteți indica biblioteca TensorFlow va indica această funcție pentru fiecare operație, care trebuieplasată în blocul dispozitivului și funcția Dispozitivul pentru atașarea operației trebuie să returneze următorul codatașează toate nodurile variabilelor la (în acest caz doar o variabilă) și toate celelalte noduri - la rețeleleneuronale din partea II și la antrenamentul profund al procesorului Poți fi ușor Pentru a realiza algoritmi maicomplexi, cum ar fi atașarea variabilelor la procesoarele grafice în modul ciclic al funcționării tensorflow, care estesupusă execuției pe dispozitiv, ar trebui să aibă implementare pentru acest dispozitiv, care se numește multe operațiuniau nuclee pentru CPU și GP, dar nu Totul, de exemplu, TensorFlow nu oferă nucleul GP pentru variabilele întregi, astfelîncât următorul cod va eșua atunci când TensorFlow va încerca să plaseze variabila pe cadrul GP () TRACEBACK (cel mairecent CAII ultimul) cadru Tensorflow Insns Insns Ins ons Alocați un dispozitiv la nod variabilă 'nu ar putea satisfacedispozitivul explicit Specicon TensorFlow Python Framework Errors InvalidargumentRorror nu a trebuit să utilizezeunitatea variabilă Ar trebui să se refere la tipul, T la valoarea inițializării este întreg dacă modificați valoareainițializării în locul sau setați clar atunci când creați o modificare, atunci capitolul va lucra cu succes capultensorflow pentru a distribui calcule între dispozitive Și serverele implicite Dacă încercați să atașați o operație ladispozitivul pentru care operația nu are un nucleu, veți primi o excepție afișată mai devreme atunci când TensorFlowîncearcă să plaseze operația pe dispozitiv dacă preferați biblioteca TensorFlow în acest caz Am plasat operația pedispozitivul CPU, apoi puteți instala parametrul de configurare în True-; Cu SS cu True, agentul de plasare este lansatși plasat pe SRI până acum am discutat despre cum să așezați nodurile pe diverse Dispozitive Să vedem acum cumTensorFlow va conduce aceste noduri în mod paralel atunci când biblioteca TensorFlow conduce graficul, mai întâiconstruiește o listă de operațiuni care au nevoie de evaluare și calculează numărul de dependențe pentru fiecare nod,apoi TensorFlow adaugă fiecare operație Cu zero dependențe (adică fiecare operație inițială), în coada evaluăriidispozitivului pentru această operație (orez) După efectuarea funcționării operației, dependențele tuturor operațiunilorcare depind de acesta sunt decrement imediat ce dependențele operațiunile unor operațiuni Acesta ajunge la zero, esteplasat în coada evaluării dispozitivului său după evaluarea tuturor nodurilor necesare Biblioteca TensorFlow Returneazăieșirile de operare în evaluarea procesorului sunt coordonate de un glonț de flux, care se numește dacă CPU are mulținuclei, atunci atunci nuclei, atunci atunci aceste operațiuni vor fi În paralel, unele operațiuni sunt evaluate înparalel cu miezurile cu fluxuri multiple ale procesorului Astfel de nuclei și -au împărțit sarcinile în multesuboperații de suboperare sunt plasate într -o altă etapă a estimărilor și coordonate de un grup suplimentar de piscină,care se numește (parte II de rețele neuronale și antrenament profund) și este separat de toate nucleele cu fluxurimultiple ale procesorului pe scurt, multe operații și suboperații pot fi evaluate în paralel pe diferite nuclee aleprocesorului pentru GP Situația este ceva mai simplă decât operațiunea în evaluarea GP sunt evaluate În serie, cu toateacestea, multe operațiuni au nuclee GP cu fluxuri multiple În mod obișnuit implementat de biblioteci, de care depindede tensorflow, de exemplu, cuda și cudnn, astfel de implementări susțin propriile fluxuri și, de regulă, operează câtmai multe fluxuri GP (ceea ce este probabil motivul glonțului interoperațional al fluxurilor pentru GP este absent,deoarece fiecare operație folosește deja cel mai mare număr de fluxuri GP), de exemplu, în orezul operației A, B și Csunt inițiale, Deci, operațiunile A și B pot fi evaluate imediat la procesor, astfel încât acestea sunt trimise Linia de evaluare aprocesorului, apoi coordonată de grupul interoperațional de fluxuri și evaluată imediat în mod paralel, astfel încâtoperația A să aibă un miez cu fluxuri multiple; Calculele sale sunt împărțite în trei părți, care sunt efectuate înparalel printr -un grup intraoperator de fluxuri, intră operația Linia de evaluare a GP și în exemplul considerat almiezului său GP este utilizat de capitolul BIB folosind tensorflow pentru a distribui calcule între dispozitivele șiserverele Cudnn Lyotok, care susține propriile sale fluxuri intraoperatorii și efectuează operațiunea în multe fluxuride fluxuri de fluxuri de fluxuri de fluxuri GP în paralel Presupunând că operația s -a încheiat cu prima, contoarele dedependențe ale operațiunilor D și E scad și ajung la zero, astfel încât ambele operații sunt plasate în linia deevaluare GP și sunt efectuate secvențial Rețineți că operațiunea este evaluată o singură dată, deși din aceasta Douăoperațiuni depind, D și E ceea ce sugerează că operațiunea s -a încheiat în cele ce urmează, dependențele dependențeloroperațiunii de decume de funcție CO și, din moment ce nu a ajuns la zero, operațiunea F nu este încă efectuată dupăoperațiunile operațiunilor A, D și E Dependențele operației F devin zero, astfel încât operațiunea FA este plasată înevaluarea procesorului și este în cele din urmă efectuată, biblioteca TensorFlow returnează toate rezultatele solicitatecu numărul de fluxuri din pool -ul interoperațional poate fi Controlat prin instalarea parametrului, acordați atențiefaptului că cel interoperator Piscina de flori este creată de prima sesiune pe care ați lansat -o toate celelaltesesiuni vor fi pur și simplu reutilizabile, cu excepția cazului în care setați parametrul B datorită instalăriiparametrului, puteți controla numărul de fluxuri din bazinul intraoperator în unele cazuri de evaluare de un fel Esteprudent să amâne operațiunile, în ciuda faptului că toate operațiunile de care depinde au fost efectuate, de exemplu,dacă operația implică multă memorie, dar valoarea sa este necesară mult mai târziu în coloană, atunci va fi mai bine săEvaluează -l în ultimul moment, evitând -o Cheltuielile inutile ale RAM, în care alte operațiuni pot avea nevoie de unalt exemplu de operații care se bazează pe date din afara dispozitivului, dacă toate acestea pot fi efectuate în acelașitimp, pot copleși banda de comunicare a trecerii dispozitivului și c Drept urmare, pentru a vă aștepta la eliberareacanalelor de intrare și ieșire alte operațiuni care au nevoie de schimb de date vor fi, de asemenea, blocate mai depreferință pentru a efectua astfel de operații cu comunicații intense în mod secvențial, oferind dispozitivuluicapacitatea de a efectua restul operațiunilor în paralel cu o parte paralelă II rețele neuronale și profund Învățareade a amâna evaluarea, cel mai simplu mod de a adăuga, de exemplu, următorul cod este informat de TensorFlow desprenevoia de a evalua și numai după ce acestea sunt estimate și (), evident, deoarece depinde și, evaluarea implică șiașteptarea a evaluării și, deși Evident, nu este în bloc în afară de asta, din cauza a ceea ce depinde, am puteasimplifica codul anterior, creând dependența controlului în loc de în schimb, dar în unele cazuri „în mod clar mai bine”este remarcabil! Acum știi cum Plasați operațiunile pe multe dispozitive în orice mod dorit; cum să efectuezi acesteoperații în mod paralel; Cum se creează dependențe de control pentru a optimiza timpul de execuție paralel a venitpentru distribuirea calculelor între multe servere! Pentru alergarea numărului pe multe servere, primul lucru Estenecesar să se stabilească clusterul este format dintr -unul sau un număr mai mare de servere Tensorflow, care acoperă deobicei mai multe mașini (orez), fiecare sarcină aparține unui fel de sarcină care este pur și simplu un grup de sarcininumit, de regulă, care separă rolul general ca urmărirea Parametri de model (o astfel de sarcină este de obiceimenționată de la „Server Parametru” - Serverul de parametri) sau performanța calculelor (o astfel de sarcină este deobicei denumită executor) Capitolul Utilizarea tensorflow pentru a distribui calcule între dispozitive și serveresarcina sarcinii Task Worker „PS” Task este sarcină Iar mașina din date determină în continuare cele două sarcini șicare conțin o sarcină și două sarcini în caz în exemplul considerat, sunt plasate două servere TensorFlow (sarcini TU),ascultând porturi diferite primele face parte din sarcină , iar al doilea este o parte a serverului TensorFlow O partea mașinii în dimensiunea serverului TensorFlow ({, job PS Task o, sarcina lucrătorului de lucru o, sarcina lucrătoruluide job pentru a rula serverul TensorFlow, trebuie să creați obiectul prin Trimiterea unui cluster de specificații (deciva putea interacționa cu alte servere), numele său propriu al sarcinii și numărul sarcinii, de exemplu, pentru a lansaprima sarcină a interpretului, veți avea nevoie Urmați următorul cod de pe mașină o parte a II -a Rețelele neuronale și instruirea profundă sunt de obicei mai ușor sălanseze o singură sarcină pe mașină, dar în exemplul precedent s -a demonstrat că, dacă tensorflow, multe sarcini peaceeași mașină, dacă există una Va trebui să garantați mașina mai multor servere că nu vor capta întregul RAM alfiecărui medic de familie, așa cum s -a explicat anterior, în orez, sarcina nu vede dispozitivul GP, T la procesul său afost lansat dintr -un mediu variabil, acordați atenție că procesorul este împărțit la toate sarcinile localizate peaceeași mașină dacă doriți ca procesul să nu facă altceva decât serverul TensorFlow, atunci puteți bloca fluxulprincipal, indicându -l la sfârșitul serverului folosind metoda (altfel Serverul va fi distrus imediat ce fluxulprincipal se va încheia), deoarece în prezent nu există nicio modalitate de a opri serverul, codul indicat va fi de faptblocat pentru totdeauna până când serverul se oprește (adică pentru totdeauna) deschiderea sesiunii după aceea Cumtoate sarcinile sunt pregătite și funcționează (în timp ce nu faceți nimic încă), puteți deschide o sesiune pe oricaredintre serverele de la un client care se află în orice proces pe orice mașină (chiar și dintr -un proces careîndeplinește una dintre sarcini) și utilizați acest lucru Sesiunea este ca o sesiune locală obișnuită, un exemplu - *(o) Rulează chiar și multe sarcini în același proces, o astfel de abordare poate fi convenabilă atunci când efectuațiverificări, dar în mediul de producție nu este recomandat șeful de utilizare TensorFlow Pentru distribuirea calculelorîntre dispozitive și servere, codul client creează mai întâi un grafic simplu, apoi deschide o sesiune pe serverulTensorFlow, care se află în mașină (pe care îl vom numi (naște)) și instruiește Master începe maestrul pentru a -levalua cu Plasarea operațiunilor pe dispozitive adecvate, deoarece în acest exemplu nu atașăm operațiuni la niciundispozitiv, Maestrul le plasează pur și simplu pe propriul său dispozitiv standard în acest caz, medicul de familie înconformitate cu instrucțiunile clientului, el evaluează și Returnează rezultatul interacțiunii cu serverul, clientul îlfolosește oferă un cadru eficient pentru apelarea funcțiilor la distanță și obținerea datelor de ieșire între ovarietate de platforme și limbi GRPC se bazează pe protocolul NTTR, care deschide conexiunea și frunzele Este deschispe parcursul întregii sesiuni, făcând comunicații de două minute după ce conexiunea este instalată în formular - o altătehnologie Google cu un cod deschis este un format ușor pentru schimbul de date binare în fiecare server din clusterulTensorFlow Poate interacționa cu orice alte servere din cluster, așa că asigurați -vă că ați deschis porturilecorespunzătoare în firewall -ul său, fiecare server TensorFlow oferă două servicii, iar serviciul de master apeleazăclienții să deschidă sesiuni și să le utilizeze pentru rulare Ea coordonează calculele dintre sarcini, bazându -se peserviciul contractantului, care efectuează de fapt calcule în alte sarcini și își primește rezultatele cu o astfel dearhitectură, o flexibilitate uriașă, un client se poate conecta la multe servere, deschizând numeroase sesiuni îndiferite În următoarea versiune a serviciului intern Google numit, care este operat cu succes timp de mai mulți anipentru informații suplimentare, contactați rețelele neuronale și instruirea profundă în fluxuri în același timp, unserver este capabil să proceseze simultan multe conexiuni de la unul sau Puteți rula mai mulți clienți un client pesarcină (de obicei în interiorul aceluiași proces) sau un singur client pentru a gestiona toate sarcinile disponibiletoate opțiunile pentru atașarea operațiunilor între sarcini pentru care puteți utiliza blocuri de dispozitive Atașareaoperațiunilor la orice dispozitiv controlat de orice sarcină, din cauza indicatrii numelui sarcinii, a indexuluiproblemei, a tipului de dispozitiv și a indexului dispozitivului, de exemplu, codul de mai jos se atașează la CPU alprimei sarcini din sarcină (Acesta este CP pe mașina a) și - La cel de -al doilea medic de familie, controlat de primasarcină a sarcinii (acesta este GP -ul pe mașina A), este în cele din urmă atașat la orice dispozitiv, astfel încâtmaestrul plasat pe propriul său dispozitiv standard (dispozitiv GP CA) ca înainte, dacă aveți coborâți tipul și Indexuldispozitivului, apoi TensorFlow va folosi dispozitivul de sarcină standard; Spuneți, atașarea operației pentru a o postape dispozitivul standard al sarcinii sarcinii (CPU ACC A) dacă scădeți și indicele de sarcină (de exemplu,), atunciTensorFlow va folosi dacă Ridicați numele sarcinii și indicele sarcinii, apoi TensorFlow va folosi sarcina Maestruluisesiunii, după cum vom vedea în curând, o abordare comună la învățare Rețeaua neuronală dintr -o configurație distribuită prevede stocarea parametrilor modelului pe setul de servere deparametri (t în sarcină), în timp ce restul sarcinilor sunt concentrate pe calcule (cea a sarcinii din sarcină) pentrumodele mari cu Milioane de parametri, acești parametri sunt utili pentru a se fragmenta printre serverele de parametriSET pentru a reduce riscul de saturație a plăcii de rețea Singurul server de parametri dacă ar trebui să atașez manualfiecare variabilă de la din capul utilizării tensorflow pentru a distribui calcule între dispozitive și servere aleserverului de lovitură de parametri, o astfel de lucrare ar fi destul de obositoare pentru fericire, Tensorflow oferă ofuncție , care distribuie variabile între toate sarcinile într -un mod ciclic De exemplu, următorul cod atașează cincivariabile la doi servere de parametri atașați la sarcina PS PS despre sarcina PS PS atașată la sarcina PS PS atașată lajob PS Task l este atașat la sarcina PS PS în loc să transmită un număr, puteți transmite specificația clusterului șitensorflow va calcula pur și simplu numărul de sarcini din sarcină dacă, pe lângă variabile, creați alte operații înbloc , atunci TensorFlow le va atașa automat La dispozitivul I, care va fi standard pentru primul dispozitiv, controlatde prima sarcină din sarcină, le puteți atașa la un alt dispozitiv, setarea parametrului, dar o abordare mai reușităeste să utilizați blocurile încorporate ale Unitate internă Dispozitivele pot reduce sarcina, sarcina sau dispozitivuldefinit în unitatea externă aici este un exemplu Acesta este atașat la sarcina PS PS despre implicit la SRI atașați lasarcina PS PS ('+în mod implicit la SRI atașează sarcina PS PS O (în mod implicit la SRI, se atașează la lucrătorul demuncă (de către Default la sarcina GPU * atașat la Dri Lucrătorul de locuri de muncă (+implicit la sarcina o) * seatașează la sarcina lucrătorului de lucru GPU PARTEA II Rețele neuronale Și se presupune că o pregătire profundă înexemplu , și, de obicei, acest lucru ar trebui să stocheze și să raporteze parametrii, mai degrabă decât să nu efectuezecalcule intense atunci când utilizați simplu (nu distribuit), în picioare, fiecare Variabila este susținută de sesiuneaîn sine; după ce sesiunea este finalizată, toate variabilele sunt pierdute În plus, două sesiuni locale nu sunt capabilesă separe nicio condiție, chiar dacă ambele elimină același grafic; fiecare sesiune are propriile copii ale tuturorvariabilelor (așa cum s -a discutat În capitol), în schimb, atunci când utilizarea stării variabilelor este susținut deaceia În clusterul în sine, și nu în sesiuni în acest fel, dacă creați o variabilă după nume folosind o sesiune client,atunci va fi automat disponibilă pentru orice altă sesiune În același cluster (chiar și atunci când ambele sesiuni suntconectate la servere diferite), aruncați o privire la simplul cod RU al clientului afișat mai târziu), imaginați -vă căaveți un cluster tensorflow gata pregătit, care funcționează pe mașinile A și B, portul folosind următoarele Ați putealansa un client, să-l faceți să deschidă o sesiune cu un server cu mașina A și să-l informați despre necesitateainițializării, creșterii și afișării valorii variabilei $ python simple client, Ru Grpc Machine-Un exemplu SOT INIT HEADfolosind TensorFlow Pentru distribuirea calculelor între dispozitive și servere, dacă rulați acum clientul princomanda de mai jos, atunci el se va conecta la server cu mașina în și în mod magic, utilizează aceeași variabilă (dedata aceasta fără a cere un server de inițializare variabilă) $ Python Simple Client Ru Grpc Machine-B Exemplu SOT esteun astfel de instrument-bățul cu două tăișuri este excelent dacă trebuie să separați variabilele dintre multe sesiuni,dar când este necesar să efectuați calcule complet independente într-un singur cluster Atenție va trebui să fie atentăpentru a nu aplica accidental aceleași nume de variabile una dintre modalitățile de a garanta absența conflictelornumelor prevede plasarea întregii etape de construire a unei variabile cu un nume unic pentru fiecare etapă de calcul dea construi opțiunea mai reușită a sarcinii În utilizarea blocului de containere, etapa de construire a sarcinii caurmare va fi utilizată un container selectat pentru sarcină în loc de un container standard (cu un nume sub formă delinie goală), avantajul este că numele de Variabilele rămân îngrijite și scurte un alt avantaj Faptul că containerulnumit poate fi aruncat cu ușurință, de exemplu, următoarea comandă se va conecta la serverul de pe mașina A și vasolicita un container resetat cu numele I I, care va elibera toate resursele utilizate de acest container (și, deasemenea, închide toate sesiuni deschise pe server) orice variabilă controlată de cei aruncați Containerul, va trebui să inițializați înainte de a putea fi utilizat din nou de către containerele de resurse,facilitarea separarii variabilelor între moduri flexibile de metode flexibile, rețele neuronale din partea a II -a șiantrenament profund în orez sunt prezentate patru Clientul care efectuează diferite coloane într -un singur cluster,dar împărtășește unele variabile ale clienților A și B, împărtășește aceeași variabilă acceptată de un containerstandard, în timp ce clienții C și D împărtășesc o altă variabilă după nume , NOTĂ Un container controlat pe careclientul C îl folosește variabile de la Clientul Containere și un client cu un cluster cluster în Client D Container(Standard) X la RGOYYPI „X Z” Resurse Resurse va avea, de asemenea, grijă de menținerea stării altora Operații caresusțin Condiția, în special cozile și cititorii sunt primii care iau în considerare cozile cozilor pentru a oferi un altmod minunat de a schimba date între numeroase sesiuni; de exemplu, un scenariu comun de aplicație prevede prezența unuiclient care creează un Grafic care încarcă date de instruire și plasarea lor la coadă și un alt client care creează ungrafic care le extrage Datele de la coadă și modelul de instruire (orez) Această abordare accelerează semnificativinstruirea, deoarece operațiunile de instruire nu vor trebui să se aștepte la următorul mini -Package la fiecare pas înbiblioteca Tensorflow Diverse tipuri de cozi după pasaj este coada Tensorflow pentru distribuirea calculelor Întredispozitive și servere, de exemplu, următorul cod creează o linie FIFO capabilă să stocheze la Tenshores, fiecare dintreacestea conținând două valori cu un punct plutitor pentru Separarea variabilelor între sesiuni va indica același numeși container pe ambele părți în cazul tensorflow nu folosește atributul, ci în schimb utilizări, de aceea este importantsă -l indicați (chiar dacă este același lucru și , Desigur, trebuie să schimbați același container pentru a pune dateleîn coadă, trebuie să creați operațiunea spunând, următorul cod pune în coada a trei eșantion de instruire de instruirede date încărcător ru l -j , la , De)) dacă extrageți pur și simplu un element simultan, atunci aceleași tensiuni careau fost plasate anterior în coadă, dar în cazul extragerii mai multor elemente (folosind OR), coada o completeazăautomat exact Tensoarele sunt partea a II -a a rețelelor neuronale și antrenament profund într -un mod însetat, dacăextragem toate cele trei elemente simultan, atunci toate tensiunile vor fi completate de zerouri pentru a devenitensiunile x, t la dimensiunea maximă pentru prima măsurare (primul element), iar dimensiunea maximă pentru a douamăsurare este (al treilea element) linia de acest tip poate fi convenabilă atunci când trebuie să faceți față datelor deintrare ale lungimii variabilei, cum ar fi secvențele cuvintelor (capitolul) deci , să ne ocupăm pe o secundă Ațiînvățat să distribuiți calculele între multe dispozitive și servere, variabile separate între sesiuni și săinteracționați asincron folosind cozi, însă, înainte de a începe să predați rețele neuronale, este necesar să discutațidespre ultimul subiect despre cum să faceți Încărcați eficient Datele de predare ale datelor de votare direct dingrafic au presupus încă că clienții încarcă datele de instruire și le transmit clusterului folosind agregate, recepțiaeste simplă și funcționează bine în cazul configurațiilor simple, dar este destul de ineficient Deoarece mută datele demai multe ori de la sistemul de fișiere către client de la client la sarcina vrăjitorului este posibil de la sarcinamaestrului la alte sarcini, unde capitolul este necesar să utilizeze TensorFlow pentru a distribui calcule întredispozitive și servere, Situația este mai gravă la Disponibilitatea mai multor clienți care instruiesc diverse rețeleneuronale folosind aceleași date de instruire (de exemplu, pentru ajustarea hiperparametrelor) dacă toți cliențiiîncarcă date în același timp, atunci fișierul de trecere a serverului de fișiere sau a rețelei pentru seturi de datepoate avea loc chiar Capabil să se încadreze în memorie, cea mai bună opțiune ar fi o singură încărcare a datelor deinstruire, atribuirea variabilei lor și utilizarea acestei variabile în graficul recepției se numește setul de instruireCa urmare, datele sunt transmise o singură dată de la client la client cluster (dar pot fi în continuare În funcție dece operațiuni au nevoie) din codul următor arată cum să descărcați un antrenament complet setat într -o variabilă)) -i-`alse, [],)? F; „Date din stocarea pe care trebuie să o instalați Fals, astfel încât optimizatorii să nu încerce săajusteze această variabilă, trebuie să instalați și I pentru a garanta că variabila nu va fi adăugată la colecțiautilizată în timp ce mențineți și restabiliți controlul Punctele din exemplu se presupun că întregul antrenament Setul (inclusiv marcajele) constă doar din valorile, altfelveți avea nevoie de o variabilă la tip, dacă setul de instruire nu se încadrează în memorie, atunci utilizareaoperațiunilor care pot citi date direct din Sistemul de fișiere Ca urmare a rețelelor neuronale Time II și a instruiriiprofunde în datele fermecătoare nu va trebui să curgă prin clienți, TensorFlow Library oferă cititorilor pentru diverseformate de fișiere CSV; înregistrări binare de lungime fixă; Formatul propriu al TensorFlow al bibliotecii, bazat Întampoanele de protocol, să ne uităm la un simplu exemplu de citire din fișierul CSV (citirea din fișierele altor formateeste descrisă în detaliu în documentația de pe interfață), să existe un fișier numit care conține copii de instruire șieste necesar să Creați operațiuni pentru aceasta Citiri presupun că fișierul are conținutul de mai jos, cu două semnede tip cu un punct flotant și un obiectiv întreg reprezentând primul lucru binar, vom crea un obiect pentru citireafișierului, obiectul deschide fișierul (după ce acesta raportează ce fișier pentru a deschide) și își citește linia dinspatele liniei, precum variabile și cozi această operație, care menține condiția, păstrează starea dintre numeroaselerulări ale graficului, urmărind fișierul citit în acest moment și poziția curentă din fișierul mai departe Creăm ocoadă din care cititorul va extrage informații despre ce fișier să citească următorul, creăm și operațiunea spațiului șiumplutura pentru plasarea în coada oricărui nume dorit de fișier, precum și operația pentru a închide linia, după Toatefișierele care sunt supuse lecturii sunt epuizate de TensorFlow pentru a distribui calcule între dispozitive și serveresunt acum gata să creeze o operație care să citească o înregistrare (adică linia) la un moment dat și să returnezeperechea de „valoare cheie”, cheia este cheia cheia Un identificator unic de înregistrare (un șir format dintr -un numede fișier, numere de linie de colon și fișier) și cu valoarea - un șir cu conținutul liniei de fișier, avem tot cetrebuie să citiți linia din spatele liniei! Dar s -a făcut încă Nu toate - este necesar să se analizeze această liniepentru a obține semne și obiectivul de extragere a valorilor din linia curentă din cod, analizatorul CSV de laTensorFlow este utilizat atunci când câmpurile sunt coborâte (în acest exemplu, un semn al acestui Se utilizează altreilea eșantion de antrenament) și se folosesc cele standard Valorile care sunt utilizate și pentru a determina tipulfiecărui câmp (există două valori cu un punct flotant și o valoare unică) În cele din urmă, putem plasa o copie deantrenament și obiectivul său în linie, care va fi în comun folosit cu pantoful Numărați (astfel încât să poată extragemini-pachete de pe linie), precum și să creeze o operație pentru a închide coada, când premisele eșantioanelor setermină D despre uh! A trebuit să fac multă muncă pentru a citi doar fișierul în plus, creăm doar Graficul, și esteîncă necesar să alungăm partea a II-a a rețelelor neuronale și a instruirii profunde; în fișierul actual nu se aflăviespa g g „',„] Membrii prejudecății stratului de pachet sunt prezentate pur și simplu ca tensor unidimensional subforma „] hai Luați în considerare un exemplu simplu de sub codul încarcă două exemple de imagini folosind funcția de laScikit-Learn (care încarcă două imagini color, una cu un templu chinezesc și una cu o floare), apoi codul creează douăfiltre X (unul cu un alb vertical linie În mijloc și a doua cu o linie albă orizontală la mijloc) și le aplică ambeleimagini folosind un strat de pachet încorporat printr -o funcție de la TensorFlow (cu un supliment zero), codul atrageîn sfârșit unul dintre cărți rezultate Semne (similar cu imaginea superioară dreaptă pe orez) Încărcare Exemple deimagini Crearea a două filtre (),) Linie orizontală verticală Linie Semne ale primei imagini despre rețelele neuronaledin partea a II-a și o pregătire profundă, cea mai mare parte a codului este de la sine înțeles, dar linia merită câtevaexplicații-mini-pachetul de intrare (tensor în patru dimensiuni, așa cum s-a explicat anterior) este un set de filtrePentru a fi utilizat (de asemenea, tensor în patru dimensiuni, așa cum s -a explicat anterior) -un tablou de patruelemente, unde două elemente centrale sunt o verticală și orizontală strictă (SH și W) Primele și ultimele elemente înmomentul în care ar trebui să fie egală cu o zi pot fi folosite pentru a indica Pachetul Strayda (pentru a sări uneleprobe) și un pas al canalului (pentru a sări unele dintre cărțile de semne sau canale ale stratului anterior) trebuieinstalate fie în I, fie dacă dacă este dacă dacă Instalat în i, atunci stratul de pachet nu este conturat Adăugarea de zero este vrăjită și poate ignora unele linii șicoloane din partea de jos și din dreapta imaginii de intrare, în funcție de Straid, așa cum se arată în orez (pentrusimplitate, doar o dimensiune orizontală este prezentată aici, dar, desigur, cea Aceeași logică se aplică și Se aplicăși unei dimensiuni verticale) Pidonding „Valid” Capul rețelelor neuronale Sparkle o, dacă este instalat, atunci stratulde pachet cu inadecvare folosește adăugarea la zerouri în acest caz, numărul numărului Neuronii de ieșire este egal cunumărul de neuroni de intrare împărțiți într -un pas Cu un -up rotund (în acest exemplu, placa apoi în jurul intrărilorcât mai uniform posibil, se adaugă în acest exemplu simplu, filtrele (pe nume) și inițializând -o la întâmplare, eacreează și o variabilă de deplasare (după nume) și inițializează -o Cu zerouri, de exemplu, următorul cod creează unagregat de intrare, în spatele căruia Urmează un strat de pachet cu două cărți de semne X (plătiți atenției pe careaceastă funcție o așteaptă doar verticală și orizontală) și o adăugare (,) Din păcate, straturile de pachet au un numărdecent de hiperparametre, vi se cere să alegeți numărul de filtre, înălțimea și lățimea lor, straiids și tipul deadăugare, ca întotdeauna, puteți utiliza verificarea Crossroads pentru a găsi valorile corecte ale hiperparametre, daracesta este A fost petrecut cu un timp foarte mare petrecut mai târziu, vom discuta despre arhitectura pe scară largă arețelelor CNN Pentru a vă oferi o idee despre valorile hiperparametrelor care funcționează cel mai bine în practică, oaltă problemă a rețelelor CNN este că straturile de pachet necesită o cantitate imensă de RAM, mai ales în timpulantrenamentului, deoarece atunci când treceți înapoi Distribuțiile sunt necesare toate valorile intermediare calculateîn timpul pasajului înainte, de exemplu, luați un strat de pachete cu filtrele X, care emite semne de dimensiuni X, curețele neuronale Airsid și Adăugare Partea II și antrenament profund dacă este introdus Imaginea RGB a lui X (treicanale) este transmisă, apoi numărul de parametri este (x x +) x ( + corespunde membrilor de deplasare), ceea ce estesuficient de puțin în comparație cu stratul complet, cu toate acestea, fiecare dintre cărți a semnelor conține xneuroni, a Fiecare neuron trebuie să calculeze cantitatea suspendată a intrărilor X X din toate milioane de operații deînmulțire, cu un punct flotant nu la fel de rău ca în stratul complet, dar totuși destul de intens în atitudinea decalcul, cu excepția cazului în care sunt prezentate hărțile semnelor Cu utilizarea valorilor -biți cu un punctplutitor, atunci ieșirea stratului de pachet va ocupa x x x x x milioane de biți (aproximativ mb) de memorie RAM șiaceasta este doar pentru un eșantion! Dacă geanta de antrenament conține probe, atunci acest strat va folosi Din GB deRam! În timpul retragerii (adică dezvoltarea prognozei pentru un nou eșantion), memoria RAM ocupată de un strat poate fieliberată imediat ce este calculat următorul strat, astfel încât RAM trebuie să fie atât de necesar pentru douăconsistente În timpul antrenamentului, tot ceea ce se calculează în timpul trecerii înainte ar trebui să fie păstratpentru trecerea înapoi și, prin urmare, RAM este necesar (cel puțin) atât cât este necesar pentru toate straturile dacăantrenamentul nu reușește din cauza antrenamentului Erori cauzate de lipsa de memorie, atunci puteți încerca săreduceți dimensiunea mini -pachetului ca alternativă, puteți încerca să scădeți dimensiunea folosind un structură sau săeliminați mai multe straturi sau puteți utiliza valorile bit -ului cu un punct plutitor în loc de un pic sau Putețidistribui rețeaua CNN între mai multe dispozitive și acum să ne uităm la a doua unitate de construcție comună înrețelele CNN ale stratului CNN cu neuroni X, fiecare dintre acestea fiind asociat cu toate intrările X X, ar avea x x Milioane de parametri! MBEY KB prin bucăți de biți x, capul rețelelor neuronale aderente, după ce a rezolvat modul încare funcționează straturile de pachet, înțelege scopul unificării straturilor (numite și subdisCretizând straturi saustraturi ale subutobului -) obiectivul lor este destul de ușor Imaginea de intrare pentru reducerea sarcinii de calcul,a consumului de memorie și a numărului de parametri (limitând astfel riscul de recalificare) ca în straturile Bundorous,fiecare neuron din stratul de unificare este asociat cu ieșirile numărului limitat de neuroni Din stratul anterior,care se află în interiorul unui mic câmp dreptunghiular receptor, trebuie să determinați dimensiunea acestuia, un pas șiun tip de adăugare, exact ca înainte Cu toate acestea, neuronul unificator nu are scale; Acesta agregă doar intrările folosind funcția de agregare, cum arfi Este prezentată maximă sau medie în orez, care este cel mai frecvent tip de strat de unificare din acest exemplu,folosim (jooling kegpeg) x, strude, fără a completa, rețineți că numai valoarea maximă de intrare a IN Restulintrărilor sunt aruncate în fiecare nucleu, este un aspect extrem de distructiv al stratului chiar și cu un miezminuscul de X și un pas va fi la jumătate în ambele direcții (astfel încât zona sa va fi de patru ori mai mică) datorităfaptului că simplu Renunțarea la valorile de intrare Partea a II -a rețele neuronale și instruire profundă Stratulcombinând funcționează de obicei cu fiecare canal de imagine de intrare în mod independent, astfel încât adâncimea deieșire este aceeași cu intrarea ca o alternativă pe care o puteți combina prin măsurarea adâncimii, cum ar fi va fiafișat în continuare; În acest caz, măsurătorile spațiale ale imaginilor (înălțimea și lățimea) rămân aceleași, darnumărul de canale este redus pentru a implementa stratul de asociere la maxim în tensorflow este destul de ușor,următorul cod creează un strat de asociere la maxim Folosind nucleul X , Strude, fără a se completa, apoi îl aplicătuturor imaginilor din setul de date de descărcare, un set de date cu imagini, cât de anterior a fost crearea uneicoloane cu o intrare X și un strat de asociere la maxim )), -); {}) ) Prima imagine a argumentului conține formanucleului împreună cu toate cele patru dimensiuni ale tensiunii de intrare [dimensiunea pachetului, înălțimea, lățimea,canalele] Tensorflow nu acceptă în prezent combinația multor probe, deci primul element trebuie să fie egal cu acea TensorFlow nu acceptă unificarea prin măsurători spațiale (înălțime și lățime) și prin măsurarea adâncimii, prin urmare,fie ar trebui să fie egală, fie ar trebui să fie egală pentru a crea doar utilizarea funcției în loc să știți totuldespre blocuri de construcție, totul Pentru a crea o rețea CNN, să aflăm cum să le aranjați cu o arhitectură tipică arețelei CNN, stabilește mai multe straturi de pachete într -o stivă (fiecare dintre acestea fiind urmate de un stratrelu), combinând stratul, mai multe straturi de încolțire (plus straturi de relu), unind din nou capul scânteii Rețelele neuronale ale stratului și T, pe măsură ce treceți prin rețea, imaginea devine din ce în ce mai puțin, dar, deobicei, din ce în ce mai profundă (cea cu un număr mare de cărți de semne) datorită straturilor de pachet (orez) dinpartea de sus din grămadă Se adaugă o rețea neuronală obișnuită de distribuție directă, formată din mai multe straturicomplete (plus straturile relu), iar stratul final oferă prognoza (de exemplu, un strat multi -perceptiv care produceprobabilități evaluative ale claselor) Pachetul stratului de convingere Concepția greșită generală este asociată cuutilizarea prea mare Nucleele cu grupuri mari cu același rezultat care dă un strat de pachet cu nucleul X pot fi adeseaobținute prin două straturi stivuite cu nuclei X și care se ocupă de un volum mult mai mic de calcule și parametripentru curs Timp de mai mulți ani, au fost dezvoltate opțiuni pentru această arhitectură fundamentală, ceea ce a dus lasuccese uimitoare în acest domeniu, cu o măsură eficientă a dezvoltării este frecvența erorilor în competiții precumsarcina ILSVRC ImageNet în această competiție a frecvenței erorilor din top -Clasificarea imaginilor În mai mult deșase ani, frecvența de vârf a scăzut cu mai mult de șase ani este numărul de imagini de testare pentru care cele maibune prognoze nu includ imaginea corectă a mare (înălțimea pixelilor), există clase și unele dintre ele sunt într-adevăr Abia distinctiv (încercați să găsiți diferențele dintre rasele de câini) Vizualizarea evoluției înregistrărilorvictorioase- o modalitate bună de a înțelege modul în care funcționează rețelele CNN mai întâi, vom lua în considerarearhitectura clasică a Lenet-Oda), iar apoi trei soluții ILSVRC Alexnet ODA) , Googlenet oda) și ResNet ODA) rețeleleneuronale din partea a II -a și învățarea profundă a dezvoltării uimitoare au afectat și alte sarcini vizuale, cum ar fidetectarea și stabilirea locației obiectelor și segmentarea imaginilor în sarcina de a detecta și de a stabili locațiaobiectelor, o rețea neuronală este de obicei Emite o secvență de limitare a dreptunghiurilor în jurul diferitelorobiecte din imagine, să zicem, în activitatea lui Maxim Provab și altele, scrise în anul pentru fiecare clasă deobiecte, este emisă o carte termică în lucrarea lui Stuart Russell și altele, de asemenea Scris în an O combinație arețelei CNN este utilizată pentru a detecta persoane și o rețea neuronală recurentă pentru a emite o secvență delimitare a dreptunghiurilor în jurul lor în sarcina de segmentare a imaginii, rețeaua emite o imagine (de obicei,aceeași dimensiune ca și intrarea), unde fiecare pixel indică clasa obiect din care aparține pixelul corespunzător De exemplu, citiți lucrarea lui Evan Schelmer și a celorlalți imagine de intrare, arhitectura Lenet scrisă în an este,poate, cea mai cunoscută arhitectură a rețelelor CNN, așa cum am menționat anterior, a fost creată de Jan Lekun IN Anulși o scară mare a fost folosită pentru a recunoaște numerele scrise de mână (MNIST), este format din straturi date întabelul (ieșire) complet -rbd -full -bred -tanh cu un Bundor x x tanh sz sz X x Tanh Association pentru media X X TanhC este un pachet X Tanh IP (intrare) INPUT X - Capul rețelelor neuronale Sparkle sub mai multe detalii suplimentare aleimaginii MNIST au x pixeli, dar înainte de a transmite rețeaua Acestea sunt completate cu zero la pixeli X și senormalizează în partea rămasă a rețelei, nu se folosește o adăugare și, prin urmare, pe măsură ce trece prin rețea,dimensiunea continuă să scadă straturile de unificare puțin mai complicate decât de obicei fiecare neuron calculeazăcalculul media Intrările sale înmulțesc rezultatul cu coeficientul instruit (unul pe card) și adaugă un membru instruital deplasării (de asemenea, unul pe card), după care folosește funcția de activare Majoritatea neuronilor din cardurileSZ sunt asociați cu neuroni doar trei sau patru cărți S (în loc de toate cele șase carduri), pentru detalii, contactațitabelul din lucrarea sursă Stratul de ieșire este oarecum specific în loc să calculați activitatea scalară a intrărilorși vectorul bibanilor, fiecare neuron dă distanța dintre vectorul său într -un pătrat Intrări și propriul vector degreutăți, fiecare măsuri de ieșire la care imaginea aparține unei clase separate de numere preferă acum funcțiaentropiei bazate pe încrucișare, că este mult mai fin, generând gradienți mari și c Ca urmare a accelerăriiconvergenței site-ului Yana Lekun, secțiunea Lenet oferă demonstrații minunate ale clasificării numerelor Lenet în anularhitecturii rețelelor CNN, sub numele cu o marjă mare, a învins problema Imagenet ILSVRC, IT IT, IT IT a atinsfrecvența erorilor de top , în timp ce al doilea rezultat a dat doar! Arhitectura lui Alexnet a fost dezvoltată de AlexKrizhevsky (de unde și numele său), Ilya Satskier și Jeffrey Hinton, este destul de asemănătoare cu Lenet, dar mult maimare și mai profund, în plus, în ea Straturile de pachet au stat mai întâi direct unul pe celălalt în loc de spații„Clasificarea ImageNet cu rețele neuronale convoluționale profunde” („Clasificare ImageEnet folosind rețele neuronale cumolid profund”) și Krizhevsky și altele) rețele neuronale din partea a II -a și o pregătire profundă a unificării Stratul deasupra fiecărui strat de pachet arhitectură Alexnet este reprezentat în out (ieșire) complet -bonding - - - multifaceted f reluarea completă a reluatului cu un bundor x x același relu cu un Bundular x x același relu cu unpachet X x Același reluare Combinând semnalul SZ maxim x x valabil x x aceeași asociere relu x x valabilă cu un pachetx x același relu IP IP (RGB) x (intrare) pentru a reduce riscul de recalificare Autorii au folosit două tehnici dereglementare care au fost discutate în capitolele anterioare mai întâi, în timpul antrenamentului au folosit o oprire(cu o fracțiune de deconectare la ieșirile straturilor F și F și, în al doilea rând, au implementat suplimentul de date,mutând accidental imaginile didactice la diverse diferite deplasări, întorcându -se Sunt orizontal și schimbăcondițiile de iluminare imediat după pasul straturilor reluate C și SZ în Alexnet folosește, de asemenea, un pas alnormalizării adversare (normalizare competitivă), numită ( - această formă de normalizare face ca neuronii care sunt ceimai mulți activat, suprimați Neuronii în aceeași locație, în aceeași locație, dar în hărțile vecine ale semnelor (oastfel de activare adversă a fost observată în neuronii biologici), această tehnică stimulează diferite hărți de semnepentru a se specializa datorită separarii și constrângerii lor la Studiați o gamă mai largă de semne, care, înconsecință, generalizarea ecuației arată cum să aplicați șeful LRN de rețea neuronală neurală neurală neurală BI AI^HIGH K + A £ A „ĂOW W ™ P ('' + U L-) LU, este o ieșire normalizată a neuronului situat în interiorul cardului Semne,într-o anumită linie și coloană (rețineți că, în această ecuație, luăm în considerare doar neuronii localizați înaceastă linie și coloană și, prin urmare, nu sunt arătați) i,-activarea acestui neuron după etapa relu, dar înainte Normalizarea și hiperparametrele numite un - (iepthradi) fn - numărul de cărți de semne, de exemplu, dacă neuronul are oactivare severă, atunci va suprima activarea neuronilor localizați în hărțile situate mai sus și sub propriul său V Alexnet Hyperparameters sunt stabilit după cum urmează Și FI și un astfel de pas pot fi implementate folosind opțiunilede operare TensorFlow pentru AlexNet Numele a fost dezvoltat de Matthew Zailer și Rob Fergus; Această rețea a câștigat soluția problemei ILSVRC În an, înesență, este un Alexnet cu mai multe hiperparametre ajustate (numărul de semne, dimensiunea nucleului, Strage, etc )Arhitectura Googlenet a fost dezvoltată de Christian Sedy și alții de la Google Research și a câștigat anul în an Rezolvarea problemei ILSVRC, scăzând frecvența erorilor mai mici decât performanțele atât de ridicate în cea mai mareparte a rezultat din faptul că rețeaua a fost mult mai profundă decât rețelele anterioare CNN (Rice), acest lucru adevenit posibil datorită sub-numelor numite N, care permit „a merge Mai adânc cu convoluții („aprofundarea folosind unpachet”), pentru a segey etc ) din filmul „Inception” („început”) al anului, fețele de actorie s -au scufundat din ce înce mai adânc în numeroase straturi de vise, de aici și numele de Modulele II Partea a II -a rețele neuronale Șipregătirea profundă a lui Googlenet este mult mai eficientă decât arhitecturile GoogleNet anterioare au de fapt la unmoment dat mai puțin parametri decât Alexnet (aproximativ milioane în loc de milioane), modulul modulului a începutînregistrarea „X + (S)” înseamnă că stratul Folosește nucleul X, Strage și același lucru, semnalul de intrare estecopiat mai întâi și este transmis la patru straturi diferite Toate straturile Bundal folosesc funcția de activare REUpe care al doilea set de straturi de pachet folosește nucleele de dimensiuni diferite (x, X și x), permițându -le săcapteze imagini din, în plus, rețineți că fiecare strat unic folosește pasul și același adaos (chiar și un strat deasociere la maxim) și, prin urmare, toate rezultatele lor au aceeași înălțime și lăţime Ca și în intrările lor, acestlucru face posibilă betonul tuturor ieșirilor pentru măsurarea adâncimii în tunarea finală a cărților de semne din toatecele patru straturi superioare ale pachetului din Tensorflow, un astfel de strat de concatenare poate fi implementat Operații C (Axis - Adâncime) Capul rețelelor neuronale Sparkle poate fi interesat de ce modulele au început să aibăstraturi de Bundal cu nuclee x x într -adevăr aceste straturi nu pot capta semne, deoarece văd doar un pixel simultan?B Entități, astfel de straturi servesc în primul rând două scopuri, sunt configurate să emită un număr mult mai mic desemne decât intrările lor, astfel încât acestea acționează ca (blocaj la nivel), că, acestea scad dimensiunea este utilăîn special înainte de versetele lui X Și x, t, sunt straturi care necesită costuri de calcul foarte mari, în al doilearând, fiecare pereche de straturi adezive de x, x și x, x, acționează ca un singur strat aderent puternic, capabil săcapteze imagini mai complexe De fapt, în loc să treceți imaginea printr -un clasificator liniar simplu (așa cum face unpachet de pachete), o astfel de pereche de straturi adezive trece imaginea printr -o rețea neuronală cu două straturi, s-ar putea să vă gândiți la întregul modul al începutului Ca un strat de cămașă îmbunătățit Ceea ce poate oferi cărți desemne, imagini complexe interesante, cu diferite scări ale numărului de nuclee adezive pentru fiecare strat de pachet,este un hiperparameter, din păcate, acest lucru înseamnă că, cu fiecare modul adăugat, începutul începutului, aveți șasehiperparametre suplimentare pe care le aveți la Acum vom lua în considerare arhitectura adulților Booglenet (Rice) pecare am decis să o imaginăm în trei coloane, dar GoogleNet arată de fapt ca o grămadă înaltă, inclusiv nouă starturi(dreptunghiuri cu lupi), fiecare dintre care, de fapt, conține trei straturi înainte de dimensiunea nucleului indicănumărul de cărți ale caracteristicilor emise de fiecare strat de pachet și fiecare strat de unificare de șase numere înmodulele de la început reprezintă numărul de hărți de semne emise de fiecare pachet strat în modul (în aceeași ordine caîn orez) Vă rugăm să rețineți că toate straturile Bundal folosesc funcția rețelelor neuronale REU Partea II șiantrenament profund în maxim, X + (S) Normalizarea locală a răspunsului pachetului, x + Convenție, X + (S) Normalizarealocală a răspunsului la pachetul maxim, x +, X + (S) Intrare FF FF Association to the Maximum, X + (S) f F Modul aînceput o funcție multi -transmisă Activații de închidere a elementelor de închidere în medie, x + (ѵ) f Asociația lamaxim, x + f va merge în rețeaua prezentată Primele două straturi împart înălțimea și lățimea imaginii prin (deci zonasa este împărțit Reducerea încărcării de calcul, apoi stratul apoi strat normalizarea locală a răspunsului estecertificat că straturile anterioare au învățat o mare varietate de semne (așa cum s -a discutat anterior), apoi sedesfășoară două straturi de pachete, primul dintre care acționează Similar așa cum am explicat mai sus, vă puteți gândi Despre această pereche Ca un strat de cămașă mai intelectual și din nou un strat de normalizare locală a răspunsului este certificat în faptulcă straturile anterioare au capturat o mare varietate de imagini, capul rețelelor neuronale aderente următorul strat alasociației la maxim reduce reducerea înălțime și Lățimea imaginii este o dată pentru a accelera calculele, apoi existăo grămadă mare de nouă module ale începutului, care sunt întrerupte cu o pereche de straturi de asociere la maximumpentru a scădea dimensiunea și a accelera rețeaua în continuare asocierea în Mijlocul folosește miezul semnelorsemnelor Cu un plus valabil, oferind cărți de semne X, se numește o astfel de strategie uimitoare (?) Forțează de faptstraturile anterioare să producă cărți de semne, care sunt de fapt încredere (minge de concidență) pentru fiecare clasățintă (T la semne de Alte tipuri ) Drept urmare, nu este necesar să aveți mai multe straturi complete în parteasuperioară a rețelei CNN (cum ar fi Alexnet), ceea ce reduce semnificativ numărul de parametri din rețea și limiteazăriscul de a recalifica ultimele straturi din strat auto -evoluat de închidere pentru reglementare Și apoi stratulcomplet -exploziv cu o funcție de activare multi -transmisă pentru emiterea de grade de clase, diagrama dată este ușorsimplificată de arhitectura inițială a GoogleNetului conținea și doi clasificatori auxiliari conectați deasupra celui de-al treilea și al șaselea module ale The Modules al celui de -al treilea module ale modulelor celui de -al treilea și alșaselea module ale celui Începând, acestea au constat dintr -un singur strat de asociere Potrivit din mijloc, un stratBundal, două straturi de rasă completă și un strat de activare multi -cross în timpul antrenamentului, pierderea lor(redusă cu o pierdere generală, obiectivul a fost combaterea problemei dispariției gradienților și a reglementării luiRețeaua, cu toate acestea, a arătat că efectul acestora a fost relativ la ei în ceea ce privește ultimele ultime larând, dar nu și câștigătorul în rezolvarea problemei ILSVRC din an a devenit oțel), dezvoltată de Keiming He și alții,care a dat un Frecvența izbitoare a erorilor de top-scădere folosind extrem de extrem Rețeaua CNN profundă din straturi„Învățare reziduală profundă pentru recunoașterea imaginilor” („Pregătire reziduală profundă pentru recunoaștereaimaginii”), la Hee OD) rețele neuronale din partea a II -a și o pregătire profundă în capacitatea de a învăța o astfelde rețea profundă este, de asemenea, utilizarea utilizării de și el numit Semnalul transmis la strat este, de asemenea,adăugat la ieșirea stratului situat puțin mai mare în stivă, să vedem ce este util atunci când predăm rețeaua neuronală,sarcina este de a face să modeleze funcția țintă I (x) dacă adăugați Intrarea x la ieșirea rețelei (T e, adăugați oconexiune de ocolire), atunci rețeaua va fi cu forță model (x) i (x) x, și nu і (x) Procesul este numit și afișat înorez (x) th (x) -x după Inițializarea rețelei neuronale obișnuite a greutății sale aproape de zero, astfel încât rețeauadă pur și simplu Valori apropiate de zero dacă adăugați o conexiune de ocolire, atunci rețeaua rezultată va oferi ocopie a intrărilor sale; Cu alte cuvinte, inițial modelează funcția identității atunci când funcția țintă este destul deapropiată de funcția identității (care se întâmplă des), acest lucru va accelera semnificativ antrenamentul, cuexcepția Dacă adăugați o mulțime de relații de eludare, rețeaua poate face succese, chiar și atunci când unele straturinu au început încă să studieze (orez) datorită legăturilor de ocolire, semnalul își poate găsi cu ușurință calea prinîntreaga rețea a unei rețele reziduale profunde poate fi considerat Ca o stivă în care fiecare element rezidual preferăo mică rețea neuronală cu o legătură de ocolire, șeful rețelelor neuronale aderente și acum vom lua în considerarearhitectura ResNet (Rice), de fapt, este neașteptat de simplu și sfârșitul este exact similar Pe GoogleNet (cuexcepția faptului că nu există un strat de oprire), iar între ele există o stivă foarte profundă de elemente rezidualesimple, fiecare element rezidual este format din două straturi de pachete cu normalizare a pachetelor (BN) și activareareluu, folosind nucleele X și Furnizarea măsurătorilor spațiale (STRAGE, aceeași adăugare) Rețineți că la fiecarecâteva elemente reziduale dublează numărul de cărți ale caracteristicilor, în timp ce împărțim în jumătate din înălțimeași lățimea lor (folosind un strat de pachet cu un pas) Când se întâmplă acest lucru, intrările nu pot Adăugați directla ieșirile elementului rezidual, deoarece acestea nu au aceeași formă (de exemplu, această problemă afectează bypass-ul, prezentat pe orezul liniei punctate cu săgeata) pentru a rezolva problema, intrările sunt trecute prin intermediulstratul de pachet x co Stride și numărul corect de carduri de ieșire ale caracteristicilor (figura) rețelele neuronaledin partea a II-a și antrenament profund, șeful rețelelor neuronale Sure Resnet- este rețeaua RESNET cu straturi (suntcalculate doar straturi de pachet și un strat de rasă completă) , care conține elemente reziduale emiterea de cărți desemne, elemente reziduale cu cărți, elemente reziduale cu cărți și Elementele reziduale cu carduri sunt o rețea RESNETS mai profundă, cum ar fi RESNET-, folosește elemente reziduale ușordiferite în loc de două straturi adezive X C (de exemplu) carduri Semne, folosesc trei straturi Bundal ale primuluipachet de pachete X cu doar cărți de semne (o dată mai puțin), acționând ca un strat de îngustare (discutat anterior),apoi un pachet de pachete X cu cărți de semne și, în sfârșit, un alt strat de pachet de x s Semne (ori), carerestabilește profunzimea inițială a rețelei ResNet, conține trei astfel de elemente reziduale care emit cărți, apoielemente reziduale cu cărți, elemente reziduale colosale cu cărți și, în final, elemente reziduale cu cărți după cumputeți vedea Regiunea se dezvoltă rapid, iar arhitecturile de diferite tipuri apar anual o tendință clară în faptul căprofunzimea rețelelor CNN continuă să crească, acestea devin, de asemenea, mai ușoare, necesitând din ce în ce mai puținparametri în prezentul arhitectură RESNET Cea mai puternică și poate cea mai simplă, așa că acum are sens să o aplici,dar continuați să urmăriți soluțiile anuale ale problemei ILSVRC de către câștigătorul anului a fost echipa Trimps-Soushen din China, cu o frecvență izbitoare de erori de realizat acest rezultat Echipa a învățat echipa Combinațiilede modele anterioare și le -au unit în ansamblu, în funcție de sarcină, frecvența de eroare redusă poate fi asociată saunu cu o complexitate suplimentară, există mai multe alte arhitecturi care vă pot interesa, în special VGGNET (ocupândlocul doi în soluție a problemei ILSVRC pe an) și a începutului) -v (care combină ideile GoogleNet și ResNet, atingândfrecvența erorilor de top în clasificarea ImageNet) „rețele convoluționale foarte profunde pentru recunoașterea imaginiipe scară largă” ( „Rețele foarte profunde, Sparkle, pentru recunoașterea imaginilor la scară largă”), Către Simonyan șiE Tyzisserman OD) „Inception-V, Inception-ResNet și impactul conexiunilor reziduale asupra învățării” („Inception-V,ResNeT-ResNet și impactul legăturilor reziduale asupra instruirii”), rețelele neuronale din partea a II-a și profundInstruire În implementarea arhitecturilor recent discutate ale rețelelor CNN, nimic special nu a fost arătat anteriorcum să creeze blocuri de construcție separate și, prin urmare, va trebui să le combinați doar pentru a obținearhitectura dorită pentru a construi o rețea CNN completă la sfârșit Capitolele, iar codul de lucru este disponibil înJupyter Notebooks TensorFlow oferă și alte tipuri de pachete, creează un strat de pachet pentru o singură intrăridimensionale, acest lucru este util, să zicem, atunci când se prelucrează un limbaj natural, atunci când fraza poate fireprezentată ca una -Matricea dimensională Cuvintele, iar câmpul receptor acoperă mai multe cuvinte vecine creează unstrat de pachete pentru intrări tridimensionale, cum ar fi o imagine tridimensională în tomografia cu emisie de pozitron(„A TROUS” (FR)-„Cu găuri”) este echivalent cu utilizarea utilizării a unui strat obișnuit de pachet cu un filtru,extins Datorită introducerii de rânduri și coloane de zerouri (găuri T E), de exemplu, filtrul X, egal, poate fi extinscu ca urmare a oferirii acestuia, permite stratului adoptat să aibă un câmp de receptor mai mare fără costuri de calculși parametri suplimentari creează , uneori numit (Igae deconvoluțional), care (PSAMPL) imagini El face acest lucru,introducând zero între intrări, astfel încât să vă puteți gândi la el ca la un strat de viteză obișnuit cu un pasfracțional, o creștere a eșantionării este utilă, de exemplu, Atunci când segmentați imagini, pe măsură ce rețeaua CNNse deplasează printr -o rețea tipică, cardurile semnelor devin din ce în ce mai mici, așa că atunci când este necesar săemiteți o imagine de aceeași dimensiune ca la intrare, este necesar un strat de probe crescute, un astfel de nume esteoarecum confuz Deoarece acest strat nu efectuează deloc convertirea unui pachet, care este o operație matematică clardefinită (opusul pachetului), crearea șefului rețelelor neuronale aderente (Vise Convolutional Layt), care aplicăindependent fiecare filtru fiecărui individ canal de intrare În acest fel, dacă există filtre FN și canale de intrareFNI, atunci va emite FN XFN, creează carduri (R JIIYE), care acționează mai întâi ca un strat de pachet în profunzime,apoi se aplică cardurilor cu semne rezultate În cele din urmă, stratul de pachet X devine posibil să utilizeze filtrepentru seturi arbitrare de canale de intrare, care sunt avantajele rețelei CNN în comparație cu rețeaua completă a DNNpentru a clasifica imaginile? Luați în considerare rețeaua CNN, formată din trei straturi de pachete, fiecare cu nuclee X, Airsid și aceleași adăugări Cel mai mic strat oferă cărți de semne, stratul din mijloc - cărți ale caracteristicilorși stratul superior - hărțile semnelor de intrare a RGB dimensiunea pixelului Câți parametri vor fi în rețeaua CNN? Dacă utilizați, valori amare cu un punct flotant, atunci care este cantitateaminimă de RAM pentru această rețea atunci când dezvoltați o prognoză pentru un singur eșantion? Ce se poate spune despreantrenamentul pe un mini-pachet din imagini? Dacă în timpul antrenamentului rețelei CNN Procesorul dvs grafic nu estevizibil în memorie, atunci ce cinci acțiuni ați putea lua pentru a rezolva problema? De ce poți avea nevoie de adăugareaunui strat de asociere la maxim și nu la un strat de pachet cu același pas? Când se poate adăuga straturi denormalizare locală a răspunsului? Rețelele neuronale din partea a II-a și pregătirea profundă Puteți numi principaleleinovații Alexnet în comparație cu Lenet-? Care sunt principalele inovații ale GoogleNet și ResNet? Construiește -țipropria rețea CNN și încearcă să obții cel mai înalt posibil Corecție la clasificarea setului mnist al imaginilor marifolosind Inception ѵz a) Descărcați imagini ale diferitelor animale Descărcați -le în Python, folosind o funcție sauschimbați dimensiunea și tăiați imaginile în pixeli X și asigurați -vă că sunt Au doar trei canale (RGB) fără canalulde transparență a imaginii pe care modelul de incepție studiat a fost pre -procesat, astfel încât valorile lor să fie înintervalul DO, deci trebuie să furnizați același lucru pentru imaginile dvs b) Încărcați cea mai ultimă incepție pre-incendiată ѵz punctul de control este disponibil pe lista de link -uri a numelor de clasă se află pe link, dar trebuiesă introduceți „fundalul” clasa B în începutul clasei „fundalului” B) Creați Inception ѵZ ѵz Model, care provoacăfuncția, așa cum este arătat Mai jos, acest lucru ar trebui să se facă în spațiul argumentului creat de funcție, pelângă instalarea -false și,) Jits, puncte finale Inception Inception ѵz (u, num c asses I traininc false) predicțiipunctul final '> tren de economisire Salvați R G) Deschideți sesiunea și restabilind punctul de control încărcatanterior al unui model pre -instruit D) Lansați modelul pentru a clasifica imaginile pregătite pentru fiecare imagine,afișați cele mai bune cinci prognoze și probabilitatea estimată cât de corectă este modelul? Capitol Rețelele neuronalede nămol învățând să transmită cunoștințe pentru a clasifica imaginile mari a) Creați un set de antrenament care conțineun minim de imagine pentru o clasă, de exemplu, puteți clasifica propriile fotografii în funcție de locație (plajă,munți, oraș etc ) sau ca o alternativă pentru a aplica un set de date existente, cum ar fi un set de date cu fotografiicu flori sau un set de date cu fotografii cu locuri de pe site -ul web al Institutului Tehnologic Massachusetts (;necesită înregistrare și este uriaș) B) Implementați o etapă de procesare preliminară care va schimba dimensiunea și vareduce imaginea la x pixeli, cu o pondere de șansă de a suplimenta datele b) folosind un model pre -inceptând inceptândѵz din exercițiul anterior, înghețați toate straturile până la stratul de îngustare (adică ultimul strat înainte stratde ieșire) și înlocuiți stratul de ieșire un număr adecvat de ieșiri pentru noua sarcină de clasificare (să zicem, unset de date cu fotografii cu flori conține cinci clase de excludere reciprocă, astfel încât stratul de ieșire ar trebuisă aibă cinci neuroni și să utilizeze un multi - - Funcție de activare încrucișată) d) Split Un set de date despre unset de instruire și un set de testare Învață un model pe un set de antrenament și evaluează -l prin testarea setului detestare, vizualizați manualul DeepDream în TensorFlow este o metodă interesantă de a vă familiariza cu o varietate devizualizare a imaginilor învățate de Rețea CNN și Generații de materiale grafice folosind un antrenament profund însoluția exercițiilor de mai sus sunt disponibile în apendicele A II rețele neuronale din partea a II -a și antrenamentprofund, șeful recurentei recurente neuronale a bătut mingea pe care începeți să o alergați imediat, prezicândtraiectoria mingii, tu urmezi Cu el, ajustați -vă mișcarea și, în sfârșit, prindeți -o (sub tunetul aplauzelor)prognozarea viitorului - aceasta este ceea ce faceți în mod constant, fie că încheiați fraza unui prieten sau așteptațicu nerăbdare mirosul de cafea la micul dejun În capitolul real, vom discuta ( -, clasa de rețele care sunt capabile săprospere viitorul (desigur, până la un anumit punct), pot analiza date precum acțiuni și vă pot informa când săcumpărați sau Vindeți în sisteme automate, pot prezice traiectoriile auto și pot împiedica exactitatea planului B maigeneral al rețelei RNN poate funcționa cu lungimea arbitrară și nu cu datele de intrare de o dimensiune fixă, ca încazul tuturor rețelelor considerate considerate Până în prezent, de exemplu, ei sunt capabili să accepte propuneri,documente sau cifre audio la intrare, ceea ce le face extrem de utile pentru procesarea limbajului natural (NLP), precumo traducere automată, Transformări de vorbire într -un text sau (să zicem, citirea recenziilor despre film și realizarea impresiilorrecenzorului despre film) În plus, capacitatea rețelelor RNN le face și ele Surprinzător de creativ, îi puteți invitasă prezică ce notă va fi cel mai probabil în melodia următoarelor, după care este selectată accidental una dintre acestenote și apoi reproduceți -o, apoi întrebați următoarea notă cea mai probabilă, reproduceți -o și Repetați procesul dinnou și din nou înainte de a afla despre acesta, rețeaua dvs va compune o melodie similară cu cea disponibilă de link,care este realizată de proiectul Google Magenta, în mod similar rețelei RNN poate genera propoziții pentru a semnaimagini și face mult Celelalte rezultate sunt încă departe de Shakespeare sau Mozart, dar cine știe că vor produce dupăcâțiva ani? În capitol, vom lua în considerare conceptele fundamentale care stau la baza rețelelor RNN, principalaproblemă cu care se confruntă (și anume Întotdeauna, pe parcurs, se va arăta cum să implementăm rețele RNN folosindTensorFlow În sfârșit, vom arunca o privire Încă am văzut arhitectura sistemului de traducere automată în cea mai mareparte rețele neuronale de distribuție directă, unde activările au procedat într -o singură direcție, de la stratul deintrare la stratul de ieșire (cu excepția mai multor rețele din aplicația D) Neural recurent Rețeaua arată foarteasemănătoare cu o rețea neuronală de distribuție directă, dar are și conexiuni care indică în direcția opusă, săanalizăm cea mai simplă rețea RNN, care constă dintr -un neuron care primește intrări care produce ieșirea și transmiteaceastă ieșire înapoi în sine (orez (stânga)) pe fiecare (TE) (numit și acesta primește intrările x (TJ, precum și oieșire proprie din pasul temporar anterior, în (i) putem prezenta această rețea minusculă de -a lungul Axa timpului Este afișată pe Rice (dreapta) Procesul se numește partea a II -a a rețelelor neuronale și antrenamentul profund poatecrea cu ușurință un strat de neuroni recurente la fiecare pas temporar Fiecare neuron primește vectorul de intrare x^și Vector de ieșire din pasul temporar anterior (care este demonstrat pe Orez după cum puteți vedea, după cum putețivedea Acum, atât intrările, cât și ieșirile sunt vectori (când a existat un singur neuron, ieșirea a fost scalară) înXXX * * Time f, fiecare neuron recurent are două seturi de scale pentru intrări, x (t) și unul pentru ieșirile pasuluitemporar anterior, y (-Activare funcție, să zicem, relu) yw (WXT-X (T ) + W-Y (T-I) + B) Rețineți că mulți cercetătoripreferă să utilizeze funcția de activare sub formă de tangene hiperbolice (TANH) în rețelele RNN, a Nu este o funcție aactiviștilor Ca exemplu, familiarizați -vă cu activitatea lui Wu Fam și a altora „abandonul implică rețele neuronalerecurente pentru recunoașterea scrierii de mână” („Deconectarea îmbunătățește rețelele neuronale de recrutare pentruscrierea de mână”), cu toate acestea, RNN bazat pe reluare sunt posibile După cum explică Kuok în LE și alții înactivitatea lor „o modalitate simplă de inițializare a rețelelor recurente de unități liniare rectificate” („Omodalitate simplă de inițializare a rețelelor recurente de elemente liniare îndreptate”), șeful de recrutare a rețelelorneuronale este ca rețele neuronale de direct distribuție Putem calcula ieșirea stratului recurent simultan pentru unmini-pachet întreg, plasând toate intrările în pasul temporar în matricea de intrare x (f) (ecuație) [W f care conțineieșiri ale stratului într-un pas temporar pentru Fiecare eșantion dintr-un mini-pachet (-Quantity Într-un mini-pachet,și Insurones-numărul de neuroni) x (f)-Matricea IVPI, care conține intrări pentru toate probele (salcie-numărul decaracteristici de intrare ) WX-Matricea Ivaronei și Ineirons> care conține greutățile etapei temporare curente W estematricea Ineiron Ineiron, care conține greutățile relațiilor pentru rezultatele etapei temporare anterioare B -încorporarea dimensiunii Insider, care conține un membru de deplasare al fiecărui neuron al matricei de greutate WX șiWJ, sunt adesea combinate vertical în singura matrice a scării W forma (Willow + Ineirons) x Ineirons (vezi a doualinie în ecuație) Desemnarea [x (f) reprezintă asocierea orizontală a matricilor x (f) și y (rl) Rețineți că y^j estefuncția de la x (f) și y^^), care este o funcție din x (f-) și y (f )> este o funcție din x^) și y (f), etc face y^j cuo funcție din toate intrările din Un pas temporar (t , x (!) X (fj) În primul pas temporar, ieșirile anterioare suntabsente, de obicei se presupune că toate sunt rețele neuronale zero partea a II -a și o pregătire profundă, deoareceieșirea recurentă Neuronul într -un pas temporar este funcția tuturor intrărilor din pașii temporari de odatăanterioară, s -ar putea spune că are o anumită formă de parte a neuralului Rețeaua care păstrează starea prin etape temporare este numită sau pur și simplu un singur neuron recurent sau un stratde neuroni recurenți este chiar, dar mai târziu, în capitol, vom lua în considerare o serie de tipuri de celule maicomplexe și mai puternice în cazul general Celulele din etapa temporară, notată de H („H” înseamnă „ascuns” -„ascuns”), este funcția unor intrări în acest pas temporar și starea acesteia în etapa temporară anterioară h (t)eliberarea celulară a celulelor Etapa temporară, indicată Y (F), este, de asemenea, o funcție din starea anterioară șiintrările curente pentru celulele de bază despre care au fost discutate până acum, producția este pur și simplu egală cuafecțiunea, dar în celulele mai complexe, aceasta este Nu întotdeauna cazul (orez) Rețeaua RNN poate accepta simultansecvența intrărilor și poate da naștere secvenței de ieșiri (rețeaua superioară stângă pe orez) O rețea de acest tipeste utilă, de exemplu, pentru prezicerea seriilor de timp, acțiuni similare , transferați prețul prețurilor în ultimelen zile și trebuie să emită prețuri, schimbate cu o zi în viitor (că de la n zile de acum până mâine) șeful rețelelorneuronale recurente au ieșit ieșiri ca alternativă, puteți transmite secvența de rețea a intrărilor și ignoră toateMângâiere, cu excepția ultimei (rețeaua dreaptă -rețea pe orez) Cu alte cuvinte, aceasta este rețeaua „stoarsă lavector”, de exemplu, rețeaua poate transmite secvența de cuvinte corespunzătoare revizuirii filmului și va oferi oevaluare a relației (spuneți, de la (nu mi -a plăcut) la + (mi -a plăcut)) și, dimpotrivă, tu Ar putea transmiterețelele unei singure intrări în primul pas temporar (și zero pentru toți ceilalți pași temporari) și să -i permită săemită o secvență (rețeaua inferioară stângă în orez) este rețeaua „vectorul la secvență”, de exemplu, poate exista poateexista fii o imagine Iar ieșirea este semnătura imaginii, în sfârșit, puteți avea o rețea „secvență în vector”, care senumește (ncodet) și urmată de rețeaua „vector într -o secvență”, numită că o astfel de configurație poate fi utilizatăÎn dreapta în orez pentru traducere Suplimentele de la o limbă la o altă rețea sunt trimise o propoziție într -o limbă,partea a II -a a rețelelor neuronale și antrenament profund, codificatorul o transformă într -o reprezentare care areforma unui singur vector, după care decodorul va transforma vectorul într -un propoziție într -o altă limbă Acest modelîn două etape, numit „decorator decorator”, funcționează mult mai bine decât o încercare de transfer din zbor cuajutorul unui singur tip RNN de tip „Secvență într-o secvență” (ca un orez dat în partea de sus în partea de sus ) estecă ultimele cuvinte pot afecta La primele cuvinte ale traducerii (în cazul limbii engleze - aprox per) și, prin urmare,este necesar să așteptăm concluzia la propoziție înainte de a traduce, sună promițător, deci să începem să scriem cod!Mai întâi implementăm un model RNN foarte simplu Fără a folosi RNN de la TensorFlow, pentru a înțelege mai bine ce seîntâmplă în interiorul, creăm o rețea RNN care conține un strat de cinci neuroni recurenți (similar cu rețeaua RNNprezentată în orez), care folosesc funcția tangenței hiperbolice pe care le -am făcut Presupunem că rețeaua RNN trecenumai după doi pași de timp, făcând fiecare dintre ei vectorii de intrare de dimensiuni Următorul cod construiește oastfel de rețea de RNN, implementate în două pași de timp - ( [F)) - (tf [ F)) ,,)) +) + +); Această rețeaarată foarte asemănătoare cu o rețea neuronală cu două straturi de distribuție directă cu mai multe trucuri, în primulrând, ambele straturi împărtășesc aceleași greutăți și membri de deplasare și, în al doilea rând, Fiecare strat estetransmis la intrări și ieșirile sunt obținute de la fiecare strat, capul rețelelor neuronale recurente pentru a conducemodelul, este necesar să transferați intrările pe ambele etape de timp un mini-pachet de pachete, probă, probă, probă іO L Session SE >; INIT O! Ieșire la O - ^probă - ^probă - ^probă - ^probă ) Ieșirea în - ^eșantion o - probă de probă- ^Lucrarea de probă nu a fost prea dificilă, dar dacă trebuie să puteți rula rețeaua RNN prin etape temporare Atuncigraficul va deveni destul de mare acum să vedem cum să creăm același model folosind RNN din operațiunile TensorFlow Funcția creează o rețea RNN detaliată prin formarea unui lanț de celule Codul de mai jos construiește exact acelașimodel Ca și codul anterior [nori ', partea a II -a a rețelelor neuronale și instruirea profundă în primul rând, creămagregate de intrare, ca înainte, atunci creăm un obiect>, la care poate fi gândit ca o fabrică care construiește ocopie Celule Pentru a construi o rețea RNN detaliată (una pentru fiecare pas temporar), apoi apelăm la funcție, trecând celulelecelulelor și tensoarele de intrare la aceasta, precum și prin raportarea tipului de date de intrare (aceasta esteutilizată pentru a crea starea inițială Matricea, care În mod implicit, funcția provoacă funcția) Funcția celulelorcelulelor o dată pe intrare, creând două copii ale celulei (fiecare conține un strat de cinci neuroni recurenți), cugreutățile și membrii separați a deplasării și formează un lanț din ele, așa cum a fost făcut Anterior, funcțiareturnează două obiecte Primul - lista Python cu un tensiune de weekend pentru fiecare pas temporar al celui de -aldoilea - un tensor care conține stările finale ale rețelei Când sunt utilizate celulele de bază, condiția finală estepur și simplu egală cu ultima Concluzie dacă există pași temporari , atunci pentru a determina agregatele de intrare șitensorii de ieșire nu ar fi deosebit de convenabil, cu excepția faptului că, în timpul executării, ar trebui să fiefurnizate cu date pentru fiecare dintre agregate și să manipuleze rezultatele, să simplificăm starea de lucruri, codulprezentat mai jos construiește la fel Rețeaua RNN în sine, dar de data aceasta acceptă singurul agregat de intrare cuFormularul I, unde prima dimensiune este dimensiunea mini-pachetului, apoi lista de secvențe de intrare pentru fiecarepas temporar aici este lista Python din tensori Cu o formă în care prima măsurătoare este din nou dimensiunea unuimini-pachet pentru aceasta, rearanjăm mai întâi primele două dimensiuni folosind o funcție, astfel încât pașii temporarisă devină prima dimensiune, apoi extragem o listă de tensori Python pe primul Măsurarea (acel tensor pe un pastemporar), folosind funcția următoarelor două linii, a rămas aceeași ca înainte, în sfârșit, combinăm toate tensoarelede ieșire în singurul tensor folosind funcția și rearanjați primele două dimensiuni pentru a obține The Get Una finală Tensor cu o formă (în care prima dimensiune este din nou dimensiunea unui mini-pachet) capul rețelelor neuronalerecurente (Num Uni putem conduce în continuare rețeaua trecând un tensor solitar, care conține toate secvențele de mini-pachete Eșantion de probă de probă despre IP IP, apoi obținem singurul tensor al codului civil central, tot timpulpașilor și toți neuronii pentru toată lumea este totuși un grafic care conține o celulă pe un pas temporar dacă auexistat pași de timp, atunci atunci Numărul ar arăta destul de penibil, acesta este puțin, seamănă cu scrierea unuiprogram fără utilizarea ciclurilor (să zicem,) Un grafic atât de mare este chiar capabil să conducă la lipsa de memoriecu distribuția inversă (în special în cazul memoriei limitate Plăcile GP), t în c A fost necesar să folosiți gradiențiiatunci când calculați un pas înapoi la fericire, există o soluție mai reușită pentru funcție BI II rețele neuronale șiimplementare dinamică de învățare profundă În timp, funcția aplică o operație pentru trecerea celulei de un număradecvat de ori dacă doriți să schimbați memoria GP și memoria CP cu distribuția opusă pentru a evita erorile asociate culipsa de memorie , puteți instala Comoditatea funcției este că, de fiecare dată, un pas temporar, ia și singurul tensorpentru toate intrările (cu formularul și dă singurul tensor pentru toate rezultatele (cu formular); nevoia de operațiisau nu există niciunul Următorul cod Creează aceeași rețea RNN ca înainte, folosind funcția, cât de elegantă este![Nom, atunci când este extins, operațiunea densionează magia corespunzătoare, păstrează valorile tensorilor pentrufiecare iterație în timpul pasajului înainte, Prin urmare, se poate le pot folosi pentru a calcula gradienții în timpulunui pas înapoi al posterului de credite I, oțel, ina, până în prezent, am folosit doar secvențele de intrare de odimensiune fixă ​​(toate cu o lungime de exact doi pași) că Dacă secvențele de intrare Au o lungime variabilă (săspunem, ca în propoziții)? În acest caz, când funcția este cauzată funcțiile (sau) va trebui să stabilească un argument;trebuie Secvența de intrare pentru fiecare imagine CU aici este un exemplu de „și, capitolul Rețelele neuronalerecurente presupun că a doua secvență de intrare nu conține două, ci doar o intrare pentru a se adapta la tensorul deintrare, ar trebui să fie completată cu un vector zero (deoarece a doua măsurare a tensorului de intrare estedimensiunea celei mai lungi secvențe, adică ) Eșantion de pas pas o, un eșantion (completat de un eșantion de vectorzero) ,,, desigur, acum trebuie să oferiți valori pentru umpluturi și o o, b Rețea R RNN oferă zero vectori pentrufiecare pas temporar pentru pre- lungimea lungimii secvenței (uitați -vă la al doilea pas temporar) până la ieșire Al doilea eșantion pentru „” starea finală este starea finală a vectorului zero, starea finală, în plus, tensorulconține starea finală a fiecărei celule (excluzând zero vectori) partea II Rețele neuronale și antrenament profund l -o! U - l l și ce se întâmplă dacă lungimea variabilă are și secvențele de ieșire? Când știți dinainte ce lungime va aveafiecare secvență (de exemplu, dacă știți care va fi Aceeași lungime ca secvența de intrare), puteți seta un parametrudescris mai sus, în cazul general va fi imposibil Spuneți, lungimea propoziției traduse diferă de obicei de lungimeapropoziției de intrare cea mai frecventă soluție din Această situație prevede definiția unei rezultate speciale numite ) Orice ieșire după markerul EOS ar trebui ignorată (vom discuta acest lucru mai târziu în capitol), așa că, știți cumsă construiți o rețea RNN (mai precis, rețeaua RNN în timp), dar cum sunteți O vei învăța? Pentru a instrui rețeauaRNN, va trebui să o extindeți în timp (așa cum tocmai făcută) și să aplicați pur și simplu distribuția inversă obișnuită(orez), o astfel de strategie se numește ( - c (y y, y) y y y y y head capitol Rețele neuronale înregistrate ( În cazulîn care fmin și ^tach este similar, o distribuție opusă obișnuită are primul pasaj înainte printr -o rețea detaliată(reprezentată de linii punctate cu săgeți), apoi secvența de ieșire este estimată folosind costul costurilor cu y, u h,prima și ultima temporară temporară Pași de ieșiri, fără a număra ieșirile ignorate) Gradienți ai acestui cost alcosturilor răspândite în direcția opusă printr -o rețea detaliată (care este reprezentată de linii continue cu săgeți),în sfârșit, parametrii modelului sunt actualizați folosind gradienți calculați în timpul VTTT, acordați atenție căgradienții curg înapoi prin toate rezultatele utilizate de costul costurilor și nu doar prin producția finală (deexemplu, în orez, funcția de cost este calculată din Ultimele trei ieșiri de rețea, y> y și y, astfel încât gradiențiicontinuă Prin cele trei ieșiri indicate, dar nu prin y și y) în plus, deoarece fiecare pas a folosit aceiași parametriW și B, distribuția opusă va acționa corect și va rezuma la toate etapele Vom instrui rețeaua RNN cu scopul de aclasifica imaginile mnist pentru a clasifica imaginile ar fi mai potrivite pentru o rețea neuronală aderentă (vezicapitolul), dar am decis să luăm un exemplu simplu cu care sunteți deja familiar, vom interpreta fiecare imagine ca osecvență Dintre rândurile de -a lungul pixelilor din fiecare (deoarece fiecare imagine a mnistului are x pixeli) vomfolosi celule din neuroni recurente, precum și un strat cu rasă completă care conține neuroni (unul pe clasă), asociatcu eliberarea ultimului temporar Etapa care urmează stratul multirustic (orez) Etapa de construcție este destul desimplă; Este aproape același cu cel al clasificatorului mnist de la capitol, cu excepția faptului că straturile ascunsesunt înlocuite cu o rețea RNN detaliată, acordați atenție faptului că stratul complet este asociat Tensorul, careconține doar starea finală a RNN (adică ieșirea), în plus, este un umplutură pentru rețelele neuronale din clasele țintădin partea a II -a și instruirea profundă [ F Multistina Încărcați acum setul de date MNIST și schimbați forma Datelede testare pe care le așteaptă rețeaua, în curând vom avea grijă să schimbăm forma datelor de instruire))) pentruinstruirea rețelei RNN, toată scena este gata este exact aceeași cu clasificatorul mnist de la capitolul În plus fațăde faptul că schimbăm forma pachetului de antrenament înainte de transferul rețelei sale, capul rețelelor neuronalerecurente despre gama de o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o de gamă iochs) Oh V l- ) Xctl l-llg ((-)) { {-Ce faci În, d) concluzia ar trebui să arate ca corectitudinea învățării corectitudinii întestarea corectitudinii în învățare atunci când testați corectitudinea în învățarea corectitudinii în testareacorectitudinii în timpul testării am primit corectitudinea - nu este rău! În plus Cu siguranță veți obține cel mai bunrezultat prin ajustarea hiperparametrelor, folosind inițializarea HEE pentru rețeaua RNN, o instruire mai lungă sauintroducerea unei anumite ponderi de reglementare (să spunem, oprirea) indică o inițială pentru rețeaua RNN prinplasarea codului clădirii în spațiu O variabilă (de exemplu, aplicați I "I \ pentru a folosi inițializarea HEE) Săaflăm acum cum să procesăm serii de timp, similar cursurilor de stocare, temperaturi de aer, o imagine a undelorcerebrale, etc În această secțiune, vom face Instruiți rețeaua RNN pentru predicția următoarei valori în rândultemporar generat, fiecare eșantion de antrenament este Secvența următoarelor valori selectate accidental din seria temporară, iar secvența țintă este aceeași cu intrarea, dara trecut la un pas temporar În viitor (orez), partea a II -a este rețele neuronale și antrenament profund, în primulrând, vom crea o rețea RNN, va conține neuroni recurente și o vom extinde în pași temporari, că fiecare eșantion deantrenament va avea o lungime în intrări Fiecare intrare va conține un singur semn (valoare în acel moment al timpului)ținta reprezintă, de asemenea, secvențe din intrări cu singura valoare fiecare cod este în principal același ca înainte I [noni I Hop Out N V Cazul general va avea mai multe caracteristici de intrare, de exemplu, atunci când va prezice uncurs de acțiuni la fiecare pas, ar exista multe alte caracteristici de intrare, cum ar fi prețurile acțiunilorconcurente, analiștii și alte semne care pot fi, ceea ce vă poate ajuta Sistemul de dezvoltare a prognozelor la fiecarepas temporar are acum un vector de ieșire cu o dimensiune, dar, de fapt, la fiecare pas, suntem interesați de singuravaloare de ieșire, cea mai simplă soluție implică plasarea unei celule în coajă din capul recurentului rețele neuronaleale cochiliei de celule Acționează ca o celulă normală, care transmite fiecare contact al metodei care stă la bazacelulei, dar oferă și funcționalitate suplimentară cu cochilia adaugă un strat de rasă completă de neuroni liniari (carefără nicio funcție de activare) la fiecare ieșire (dar nu afectează starea celulei) Toate aceste straturi complete derasă au împărtășit aceleași greutăți (instruite) și membri de deplasare, rețeaua rezultată RNN este prezentată în orezde ieșire a elementului de bord complet Cod anterior, plasarea codului anterior, plasarea în membrană (Până înprezent, totul este bun acum, este necesar să se determină funcția de cost pe care o vom folosi eroarea quadratică medie(MSE), așa cum a acționat anterior în rezolvarea problemelor de regresie, atunci, ca de obicei, vom crea un AdamOptimizer , Operațiunea de instruire și operaționalizarea variabilelor celor neurale II Rețele și antrenament profund Aaici este etapa de execuție a dimensiunii lotului de terație, sesic init rulează în Angt pentru a extrage următorulpachet de instruire ES, GOP {TC} ) Io eval}), ieșirea programului arată ceva de genul acesta O MSE MSE MSE MSE MSE Dupăce antrenează modelul, puteți dezvolta noi prognoze Secvența E în orez arată secvența previzibilă pentru eșantionul pecare l -am văzut mai devreme (în orez ), după numai iterații de antrenament, deși utilizarea cochiliei este pro- Soluția a sutarii pentru a scădea dimensiunea secvențelor de ieșire a rețelei RNN până la o singură valoare pe un pastemporar (pe eșantion), nu este cea mai eficientă existentă o mai complexă, dar și o soluție eficientă pentru a schimbaformularul de ieșiri RNN de la a, după care Aplicați un singur strat de legare completă de o dimensiune adecvată (încazul nostru), care va da ca urmare a unui tensor de ieșire cu o formă, apoi schimbați forma acestui tensor pentruastfel de operațiuni sunt prezentate la orezul recurentului rețele neuronale ale testului modelului B despre - eșantion☆ ☆ Obiectiv Previziunea și o® y (N u dimensiunea lotului Schimbarea formei n ieșiri dimensiunea lotului x p; și c (t>(„c” denotă „sip” („celulă”)) Puteți lua în considerare h (t) un stat pe termen scurt și C (TJ este o stare pe termenlung, să deschidem caseta! Ideea principală este că rețeaua poate afla ce să depoziteze într -o stare de lungă durată,ce trebuie să aruncați și din Ce să citiți în timpul intersecției rețelei de la stânga la dreapta pe termen lung, stareatrece mai întâi Prin eliminarea unor amintiri și apoi, prin funcționarea de adăugare la ea, se adaugă o serie deamintiri noi (rezultatul selectat c selectat C trecut prin funcția Tanh, iar rezultatul este filtrat de rezultat va fistarea pe termen scurt a lui H (t> (care este egală cu producția celulei pentru acest temporar trebuie Ga u (GR va vedeaacum de unde provin noi amintiri și Cum sunt în primul rând gateway -urile din vectorul de intrare curent X (t> șistarea anterioară pe termen scurt sunt transmise la patru straturi complete, toate, toate servesc stratul principal,stratul principal se afișează G (FJ joacă un regulat regulat rol, analizând intrările curente x^ și precedentul (petermen scurt) Partea de stat II rețelele neuronale și pregătirea profundă în celula de bază nu există altceva decâtacest strat, iar ieșirea sa vine direct la u (și H ((Y, dimpotrivă, în celula LSTM, producția acestui strat nu esteemisă direct, dar parțial Restul de trei se păstrează în starea de lungă durată Straturile sunt așa cum folosesc Funcția logistică a activării, rezultatele lor sunt în intervalul de la până la așa cum vedeți, ieșirile lor sunttransmise prin operațiuni de multiplicare elementară, deci dacă dau zerouri, atunci închideți gateway -ul Și dacăunitățile, atunci o deschide mai precis, o (controlat f^) controlează ce părți ale stării pe termen lung ar trebuidistruse; O (controlul I ((j) controlează ce părți ar trebui să fie adăugate la starea pe termen lung (tocmai de ce estedoar o „conservare parțială”); o (controlată O ((R controlează ce părți ale stării pe termen lung ar trebui Fiți cititși emis în acest etapă temporară ((J și Y ((r Pe scurt, celula LSTM este capabilă să învețe să recunoască o intrareimportantă (rolul gateway -ului de intrare), scrie -l într -un stat pe termen lung , salvați -l atât cât aveți nevoie(rolul blocării uitării) și extragerea acestuia, după cum este necesar, acest lucru explică de ce celulele LSTM au avutun succes uimitor în colecția de imagini pe termen lung din rânduri de timp, texte lungi, înregistrări audio și multealtele În ecuație arată cum să calculezi starea pe termen lung a celulei și ieșirea ei la fiecare pas temporar pentru unsingur eșantion (ecuațiile pentru un mini-pachet întreg sunt foarte similare) *(i) ff (wx '' (w "-x ( + w t-hc-i> + b)^lx (o + ^tl-i> + b") tanh (w "z x ( + wl h (> i) + b") c (T) f (t) ®c (t-) + \ t) ® ( t) y (h (t) ° (t) ® tanh (c(t)) Capul rețelelor neuronale recurente WXI> WXP WXO și WXG sunt cântarele fiecăruia dintre cele patru straturi pentru Conexiunea lor cu vectorul de intrare X (TJ WW, W ¥, W, O și - Matricea scalelor fiecăruia dintre cele patru straturipentru conectarea lor cu starea anterioară pe termen scurt B ;, B, B și B? - Plătește membrii deplasărilor pentrufiecare dintre cele patru straturi Atenție care tensorflow inițializează vectorul umplut cu unități, și nu zero, acestlucru împiedică să uite ceva la începutul antrenamentului în celula elementară LSTM SLIDS Controlere poate privi doarintrarea X (TJ Iar starea anterioară pe termen scurt este uneori utilă pentru a le oferi un context puțin mai mult,permițând să se uite într -un stat pe termen lung, o astfel de idee a fost prezentată de Felix Gerses și JurgenSchmidguber în an, au propus o variantă a lui Celula LSTM cu legături suplimentare numite controlerele Gateway ofForgeting și Gateway -ul de intrare în calitate Intrarea este adăugată la starea anterioară pe termen lung și lacontrolerul de ieșire -Condiția actuală pe termen lung C (FY pentru a implementa Vizualizarea relațiilor în tensorflow,va trebui să aplicați clasa în loc și să stabiliți Vit adevărat " Adevărat) Există multe alte opțiuni pentru celulaLSTM în special Populară printre opțiuni este celula GRU, pe care o vom considera acum celula pentru orez, oferită deKyengen Cho și alții în munca anului, care a prezentat și rețelele de rețea menționate anterior „Coder-decoder”, rețeauade rețea menționată anterior Numara" („Rețelele recurente care distribuie timpul și calculează”), F Gerth și YuSchmidgubert OD) „Reprezentări ale frazelor de învățare folosind RNN Encoder-decoder pentru traducerea automată amașinilor statistice” Traducere automată ”), la CHO și alte OD) rețelele neuronale din partea a II -a și pregătireaprofundă a celulei GRU este o versiune simplificată a celulei LSTM, care, aparent, funcționează la fel de bun (careexplică popularitatea sa din ce în ce mai mare) principalele simplificări ale celor doi vectori de stat sunt enumeratemai jos Combinată în singurul vector h (f) Un controler al gateway -ului controlează poarta de poartă și poarta deintrare dacă controlerul gateway -ului dă afară, atunci poarta de uitare se deschide, iar poarta de intrare se închidedacă controlerul gateway -ului dă afară , atunci opusul apare cu alte cuvinte, toată lumea Odată ce memoria ar trebuisă fie păstrată, mai întâi locul în care va fi păstrat efectiv este o opțiune frecventă și nu există o poartă de ieșirepentru celula LSTM în sine; Cu toate acestea, la fiecare etapă temporară, există un vector complet de condiție NoulController Gateway, care controlează ce părți ale stării anterioare vor fi arătate stratului principal în lucrarea luiClaus Gref și altele „LSTM Arch Space Odyssey” („LSTM Waning of the Search Space”), publicat în an, este pe an, toateopțiunile sunt LSTM Există aproximativ același cap de rețele neuronale recurente în ecuație, o metodă de calculare astării celulei la fiecare etapă de timp pentru un singur eșantion z (t) ff (wxj-x (f) + waj-h (f-l) + Bz) r (f) prognozaJe Bois este lucrat Lait je bois du lait lapte băutură Propunerea engleză i este transmisă codificatorului, iardecodificatorul își va da traducerea în franceză notă că traducerea franceză este folosită și ca intrare îndecodificator, dar este împinsă cu un pas în alte cuvinte, decodificatorul ca intrare este dat un cuvânt care A trebuitsă dea afară în pasul anterior (Indiferent de ceea ce a dat în realitate) pentru primul cuvânt, i se dă un marker, reprezentând începutul uneipropoziții (spuneți, „”) Decodorul se așteaptă ca propunerea (EO), deci Pe măsură ce „” puteți vedea, înainte detransferul codificatorului, propozițiile în limba engleză se întorc în interior, de exemplu, „Eu beau lapte” setransformă în „Băutură de lapte I” „Secvență la secvența de învățare cu rețeaua neuronală”), I Sutskeever și altele OD)Capul rețelelor neuronale recurente garantează o astfel de acțiune, încât începutul propoziției engleze va fi transmisla ultima dată codificatorului, iar acest lucru este convenabil, că decodificatorul trebuie să -l traducă mai întâi înetapa inițială, fiecare cuvânt este Reprezentat de Simple Integer Identificatorul (să zicem, pentru cuvântul „lapte”),apoi căutarea reprezentarii vectoriale returnează reprezentarea vectorială a cuvântului (așa cum s -a explicat anterior,acesta este un vector dens cu o cantitate destul de mică de măsurători) Reprezentări vectoriale ale cuvintelor suntprecis Ce este transmis de fapt codificatorului și decodificatorului Fiecare pas, codificatorul oferă un indicatorpentru fiecare cuvânt din dicționarul de ieșire (adică francez), după care stratul multi -cross transformă astfel deindicatori în probabilitate, de exemplu, în primul pas, cuvântul „je” („i ”) Poate fi probabilitatea de„ tu ”(„ tu ”) -probabilitatea și Rezultatul va fi cuvântul care este asociat cu cea mai mare probabilitate a procesului este foartesimilar cu sarcina obișnuită de clasificare, astfel încât să puteți antrena modelul folosind funcția GITS care în timpulieșirii (după antrenament) Nu veți avea o ofertă vizată pentru a transmite decodificatorul în schimb, pur și simplu îitransmiteți cuvântul în pasul anterior, așa cum este ilustrat în orez (aceasta va necesita căutarea rețelelorvectoriale, care nu este prezentată în diagramă) rețelele neuronale din partea a II -a și adânc Învățând acest lucru,acum aveți o imagine comună, cu toate acestea, dacă vizualizați manualul SEQ SEQ în documentația TensorFlow șicunoașteți codul, veți observa mai multe diferențe importante, în primul rând, am crezut în continuare asta Toatesecvențele de intrare (transmise la codificator și decodificator) au avut o lungime constantă, dar, în mod evident,lungimea propozițiilor poate varia poate fi procesată în mai multe moduri - să spunem, să transmită funcții sau argumentpentru a indica lungimea fiecărei propoziții (așa cum s -a discutat anterior) in orice caz Conducerea aplică o abordarediferită (probabil din motive asociate cu performanța), propozițiile sunt combinate în grupuri de lungimi similare (deexemplu, există un grup pentru propoziții cu numărul de cuvinte din DO, un alt grup pentru propoziții cu numărul decuvinte De la , etc Propunerile mai scurte sunt suplimentare folosind un marker de suplimente speciale (cum ar fi „”),propunerea „I Bea Milk” se transformă în „Băutură de lapte I”, iar traducerea sa devine „Je Bois du Lait” Vrem săignorăm tot ceea ce este emis după markerul EOS pentru acest lucru în implementarea de la conducere, un vector esteutilizat, de exemplu, pentru oferta țintă „Je Bois du Lait”, ponderile ar fi instalate în (Greutatea corespunde pentrumarker de completări în propoziția țintă) Înmulțirea simplă a pierderilor în funcție de greutățile țintă își rezervăpierderi care corespund cuvintelor care se află în spatele markerilor EOS, în al doilea rând, în cazul unui dicționar deieșire mare (ca aici), probabilitatea pentru fiecare cuvânt posibil ar fi îngrozitor de lentă dacă dicționarul țintăConține, să zicem, Cuvinte franceze, atunci decodificatorul trebuie să emită vectori care au măsurători, iar calculululterior al funcției multi -cross pe un vector atât de mare va necesita calcule foarte intense pentru a evita acestlucru, puteți permite decodificatorului să dea vectori mult mai mici, astfel ca vectori de măsurare și Apoi, conducereafolosește o altă dimensiune a grupului de rețele neuronale recurente pentru a utiliza un fel de tehnică de eșantionpentru a evalua pierderea, fără a calcula fiecare cuvânt în dicționarul țintă, astfel de Sebastian Jean și alții înanul În TensorFlow, puteți utiliza funcția în al treilea rând, în implementarea de la conducerea în care esteutilizată, ceea ce permite decodificatorului să privească în secvența de intrare în luarea în considerare a atențieirețelelor RNN (participați la RNN augmentat) depășește această carte, dar dacă dvs Sunt interesați, vă putețifamiliariza Cu articole utile despre traducerea mașinilor, citirea mașinilor și semnarea imaginilor folosind a patraatenție, modulul este implicat în implementarea de la Leadership, care oferă instrumente pentru construcția ușoară adiferitelor modele „Coduri-decoder”, de exemplu, funcția creează un model predispus „Codist-decorator”, care automat Va avea grijă de reprezentările vectoriale ale cuvintelor, precum și de modelul arătat în orez cel mai probabil, codulva fi în curând actualizat pentru a utiliza noul modul, astfel încât să aveți toate instrumentele necesare pentru aînțelege implementarea rețelei de tip RNN „Așezarea la secvență” de la conducere testați -le și învățați -vă propriultraducător de la engleză în franceză! „OP Utilizarea vocabularului țintă foarte mare pentru traducerea mașinilorneuronale” („La utilizarea unui dicționar vizat foarte mare pentru traducerea mașinilor neuronale”), S Jean și Dr)„Învățarea traducerii automate a mașinilor neuronale în care se alindi” („Neuronii Traducere automată Învățând săcoordoneze și să traducă în comun ”), D Bagdanau și Dr OD)„ Rețele de memorie pe termen scurt pe termen scurt pentrucitirea mașinilor ”(„ Rețele cu o memorie pe termen lung ) „Afișează, participă și generarea de legendă neurală aimaginii neuronale cu atribuire vizuală” („Afișați, acordați atenție și raportați generarea neuronală de semnăturipentru imagini folosind atenție vizuală”), la Xui și altele) II rețele neuronale și antrenament profund puteți veni cucâteva aplicații pentru tipul de rețea RNN „Secvență în secvență”? Ce zici de tipul de rețea RNN „Secvență în vector”?Și tipul de rețea RNN „Vector în secvență”? De ce pentru traducere automată Oamenii folosesc rețele de tip RNN „Coduri-decodare” și nu simple rețele RNN tip „Secvență în secvență”? Cum ați putea combina un grup RNN dintr -o rețea neuronalăstropită pentru a clasifica videoclipuri? Care sunt avantajele construirii unei rețele RNN folosind o funcție în schimb ? Cum ați face față secvențelor de intrare de lungime variabilă? Ce zici de secvențele de ieșire de lungime variabilă?Care este metoda comună de distribuție a antrenamentului și efectuarea unei rețele RNN profunde între mulți GP? Înlucrarea sa dedicată celulelor LSTM, ciorba și Schmidhuber le -a folosit sunt gramatici artificiale care produc liniiprecum „BPBTSXVPSEPE”, citiți buna introducere a acestui subiect scris de Jenny Orr, selectați o prăbușire separată alui Rebert (una dintre paginile Jenny Orr) și aflați rețeaua RNN Pentru a identifica dacă linia respectă regulilegramaticii alese mai întâi, trebuie să scrieți o funcție care să poată genera un pachet de instruire din aproximativrânduri care respectă regulile gramaticale și despre rândurile pe care regulile nu le respectă sarcina prognozelor deprecipitații pe oră („Cât a plouat? Ploaia, Luis Andre Dutra E Silva în interviul tău Oferă rețele neuronale recurenteoarecum interesante de basme despre tehnicile pe care le -a folosit pentru a ajunge pe locul doi în competiție, înspecial, a folosit rețeaua RNN formată din două straturi de celule LSTM pentru a lucra cuvântul de conducere VEC Dindocumentația TensorFlow pentru a crea reprezentări vectoriale ale cuvintelor, apoi conducerea SEQ SEQ pentru a instruisistemul de traducere din engleză în soluții franceze ale exercițiilor de mai sus sunt disponibile în apendicele A IIrețele neuronale și capitolul de învățare profundă Codificatorii motorii sunt rețele neuronale artificiale care suntcapabile să învețe reprezentări eficiente ale datelor de intrare numite fără niciun profesor (că setul de instruire estepuțin probabil), astfel de coduri au de obicei o dimensiune mult mai mică decât datele de intrare, ceea ce facecodificatorii auto convenabil Mijloacele de scădere a dimensiunii (a se vedea capitolul) este mai important ca codurileauto să acționeze ca caracteristici puternice ale semnelor și pot fi utilizate pentru pregătirea preliminară fără unprofesor de rețele neuronale profunde (care a fost discutat în capitol), în sfârșit, pot fi la întâmplare la întâmplareGenera date noi care arată foarte asemănătoare cu datele de instruire; Acest lucru se numește, de exemplu, putețiantrena un codificator de mașini în fotografiile persoanelor și el ar putea genera noi fețe surprinzător, carcasele delucru, pur și simplu învățând să -și copieze intrările Aceasta poate părea a fi o sarcină banală în rezultate, dar vomvedea că restricția rețelei în diverse moduri o poate îngreuna, putem limita dimensiunea reprezentării interne sauadăugăm zgomot la intrări și să învățăm rețeaua pentru a restabili intrările inițiale Astfel de restricții nu permitcodificatorului auto să copieze pur și simplu intrările direct la ieșiri, forțându -l să învețe metode eficiente deprezentare a datelor pe scurt, codificarea sunt de către produsele auto -codificatorului de a afla funcția identică Unele restricții din acest capitol explică activitatea codurilor auto Tipuri de restricții impuse și implementareaacestora folosind TensorFlow, fie că este vorba de o scădere a dimensiunii, evidențiind semnele, pregătirea preliminarăfără un profesor sau generarea de modele care dintre următoarele secvențe considerați mai ușor de memorat? La primavedere poate părea Că prima secvență ar trebui să fie mai ușor de reținut, cu toate acestea, este mult mai scurtă, cutoate acestea, dacă te uiți la a doua secvență mai atent, poți observa că este observat cu două reguli simple dinspatele numerelor chiar și urmează valorile lor jumătate Și pentru cele ciudate - valorile lor triplate plus unitatea(aceasta este cunoscută după șablonul descris descris, a doua secvență devine mult mai ușoară pentru memorare decâtprima, deoarece trebuie să vă amintiți doar două reguli, primul număr și Lungimea secvenței acordă atenție, ceea ce dacăai putea rapid și este ușor de reținut secvențe foarte lungi, atunci existența unui șablon în a doua secvență nu ar fideosebit de importantă, ai memora doar fiecare număr și nimic altceva decât acest fapt Explică dificultatea de amemora secvențe lungi, ceea ce face recunoașterea șabloanelor și probabil vărsă lumina de ce restricția unui codificatorde mașini în timpul antrenamentului îl obligă să identifice și să funcționeze șabloane în relația dată între memorie,percepție și comparație cu eșantioane A fost excelent studiat de William Chase și Herbert Simon în anii timpurii, auobservat că au experimentat jucători de șah ai metodei BNES își aduc aminte de pozițiile tuturor cifrelor din joc, doarprivirea la bord pentru câteva secunde este sarcina de a face față cu care majoritatea Cu toate acestea, ar fiimposibil pentru oameni, acest lucru s -a întâmplat doar în cazul în care cifrele erau în poziții realiste (din jocurireale), dar nu atunci când le plasam în mod arbitrar, experții în șah nu au cea mai bună amintire decât tine și eu, Acestea sunt mai ușor de observat șabloane de șah datorită experienței lor în joc, identificarea șabloanelor îi ajută să-și amintească în mod eficient informația „percepția în șah” („Percepția în șah”), pentru Cheze și Mon OD) rețeleleneuronale din partea a II -a și învățarea profundă sunt similar Jucătorii de șah din experimentul menționat cumemorare, codificatorul de mașini privește intrările, îi transformă într -o reprezentare internă eficientă și dă ceea ce(trebuie să se spere) arată foarte aproape de intrările codificatorului auto constă întotdeauna din două părți dincodificator (OR), care transformă intrările În performanța internă și decodificatorul care îl urmărește (sau (>zkegai)), care transformă Reprezentarea internă a reprezentării (orez) („intrări) Reprezentare interioară, intrărilecodificatorului aderent, după cum puteți vedea, trackerul auto are de obicei de obicei aceeași arhitectură care Și unperseptron multiplu (vezi capitolul), dar numai numărul de neuroni din stratul de ieșire ar trebui să fie egal cunumărul de intrări din exemplul de mai sus, există un singur strat ascuns format din doi neuroni (codificator) și oieșire strat, inclusiv trei neuroni (decodificator) Ieșirile sunt adesea numite un divaler auto pentru a reconstruiintrările, iar funcția de cost conține care amenință modelul atunci când reconstrucția diferă de intrări, deoarecereprezentarea internă are o dimensiune mai mică decât datele de intrare (este bidimensional Ei spun ei, nutridimensionali), spun ei Că codurile auto ale codificatorului auto, divizorul este un codificator auto reducetor, nupoate pur și simplu să -și copieze intrările în codificare, el este, de asemenea, obligat să găsească o modalitate de aemite o copie a intrărilor sale, un codificator auto reducetor este obligat să afle cel mai mult Caracteristiciimportante în datele de intrare (și Aruncați semnele nesemnificative) Să vedem, să vedem, să vedem, să o vedem, săvedem, să vedem cum să realizăm un codificator de mașini de reducere foarte simplu pentru a reduce dimensiunea dacă uncodificator auto folosește numai numai Funcții și costuri de activare liniară sub forma unei erori medii -TTEX (MSE),atunci se poate demonstra că în cele din urmă efectuează analiza Principalele componente (RSA; vezi Capitolul) suntconstruite de un coder liniar simplu de mașină pentru a efectua analiza RSA pe un set de date cu trei dimensiuni,proiectându -l în două măsurători ale unor intrări de trei intrări dimensionale două codificări dimensionale [NORR, (I)* ' ( )) MSE '; (n t-) (I 'Fii ”Fi pe cod nu este de fapt foarte diferit de toate persepronii cu mai multe straturi,pe care le-am construit în capitolele anterioare, observăm cele două puncte principale ale ieșirilor Numărul de intrăripentru a efectua O simplă analiză RSA pe care nu o folosim care -atunci funcția de activare (adică toți neuronii suntliniari), iar funcția de cost se bazează pe MSE în curând, vom lua în considerare mai multe rețele neuronale maicomplexe de la partea a II -a și o pregătire profundă Acum, noi, noi, noi va încărca setul de date, Instruim modelul pe setul de instruire și îl folosim pentru a codifica setul de testare (cel al acestuia în douădimensiuni), încărcarea setului de date Ieșirea stratului ascuns oferă codificare pe raza de acțiune nu (fără profesor)în stânga pe orez arată setul inițial de trei dimensiuni de date, iar în dreapta este ieșirea stratului ascuns alcodificatorului auto (adică stratul de codificare), după cum puteți vedea, codificatorul auto a găsit cel mai bun plancu două dimensiuni Pentru proiectarea datelor despre aceasta, protejarea cât mai multă dispersie (cum ar fi RSA), pecât posibil, o setare în două dimensiuni cu dispersie maximă, precum alte rețele neuronale, despre care am discutat,codificatorii de mașini pot avea multe straturi ascunse în acest caz, sunt numite sau (IEER AutocodT) STRATE STraturisuplimentare ajută un codist auto Pentru a învăța codificări mai complexe, cu toate acestea, șeful codificatorilor demașini trebuie să fie atent pentru a nu face ca un codificator de mașini să fie prea puternic pentru a -și imagina uncodificator care este atât de puternic încât va învăța pur și simplu să compare fiecare intrare cu singurul arbitrarNumăr (și decodificatorul va învăța contrariul Este ideal să reconstruiți datele de predare, dar în acest proces nurecunoaște o singură prezentare utilă a datelor (și este puțin probabil să se generalizeze bine pentru eșantioanele noi)Arhitectura unei mașini cu mai multe straturi Coderul este de obicei simetric în raport cu stratul ascuns central(stratul de codificare) Mai simplu spus, se pare că un sandwich, de exemplu, un codificator de mașini pentru mnist(introdus la capitol) poate avea o intrare, urmată de un strat ascuns de neuroni, un strat ascuns central de neuroni, unalt strat ascuns de neuroni și un strat de ieșire Dintre neuroni, un astfel de carwer multistrat este arătat în orezulreconstrucției („intrări), un codificator auto multi -plastire poate fi implementat într -un mod care este foartesimilar cu implementarea unui Perseptron multistrat obișnuit, în special Tehnici care au fost folosite pentru a predarețele profunde În capitol, să zicem, codul de mai jos este construit de un codificator de mașini cu mai multe niveluripentru MNIST folosind inițializarea HEE, funcția de activare ELU și reglementarea Codul ar trebui să pară familiar, darnu există doar etichete (nu există o parte II rețele neuronale și antrenament profund pentru codificare Atunci modelulpoate fi instruit în mod obișnuit, vă rugăm să rețineți că etichetele numerelor nu sunt utilizate despre intervalul degamă, capul codurilor auto atunci când codificatorul auto este clar Simetric așa cum s -a construit, tehnica comunăprevede legarea straturilor de decodare cu greutăți de codificare Drept urmare, numărul de greutăți din model scade,accelerând antrenamentul și limitând antrenamentul și limitând riscul de recalificare în special, dacă mașina Coder areîntregul strat (fără a număra intrarea) și WL reprezintă greutatea legăturilor stratului (de exemplu, stratul-primulstrat, stratul u-stratul de codificare și stratul-stratul de ieșire), apoi greutate) stratul de decodare poate fideterminat astfel încât wn l+ wlr (c l ț) Din păcate, re Alicide Balanță în TensorFlow folosind funcția câtorva bulking;Pe sine Cazul este mai ușor pentru a determina straturile devin manual mult mai mult mai multe despre [non len> și i l!Reduc și normalizez revars în antrenamentul capului cu întărirea, vom verifica dacă totul funcționează - \ i [Aggau - Aggau ()] Apelul returnează exact ceea ce ne -am așteptat (Rice) vă puteți asigura că funcția returnează cu adevăratevaluările normalizate pentru fiecare acțiune în ambele episoade, rețineți că primul episod a fost mult mai rău decât aldoilea, prin urmare Toate evaluările sale sunt negative; Toate acțiunile din primul episod vor fi considerate proasteși invers, toate acțiunile din cel de -al doilea episod vor fi considerate bune acum avem tot ce este necesar pentru aînvăța politica numărul de învățare Its numărul maxim de pași În episodul „~ Pregătire politică fiecare episoade,păstrând modelul fiecare în -Lange I ilw toate secvențele de premii neprocesate pentru fiecare episod, gradiențipăstrați la fiecare pas al fiecărui episod în rază de acțiune, dar nu din statele trecute (sistem Fără memorie) aratăun exemplu de lanț Markova cu patru state lasă procesul să înceapă într -un stat și există șansa ca el să rămână înacest stat la următorul pas în timp, el va părăsi cu siguranță partea a II -a Rețele neuronale și pregătire profundă aacestui lucru statul și nu se va întoarce niciodată înapoi, deoarece niciunul dintre celelalte state nu indică $ dacăprocesul va intra într -un stat, atunci cel mai probabil va cădea în starea lui S (probabilitatea și va reveni imediatla statul SJ (cu probabilitatea se poate muta de mai multe ori între cele două state indicate, dar până la urmă va cădeaîntr -un stat de $ și Va rămâne acolo pentru totdeauna (aceasta este condiția finală) lanțurile lui Markov pot avea proprietăți dinamicefoarte diferite și Sunt utilizate pe scară largă în termodinamică, chimie, statistici și multe alte domenii aleproceselor de luare a deciziilor Markov au fost descrise pentru prima dată în anii lui Richard Wellman, seamănă culanțurile lui Markov, dar cu un singur truc la fiecare pas, agentul poate alege unul dintre mai multe Acțiunileposibile și probabilitatea tranzițiilor depind de acțiunea selectată, în plus, anumite tranziții între state returneazăpremiul (pozitiv sau negativ), iar obiectivul agentului este să găsească o politică care să aducă la un premiu maxim întimp, pentru exemplu, Procesul MDP prezentat în Rice are trei state și până la trei acțiuni discrete posibile lafiecare pas, începe cu o stare de $, iar agentul poate alege una dintre acțiunile A sau dacă agentul selecteazăacțiunea Ag, atunci procesul cu încredere rămâne într -o stare de $ fără nicio recompensă, atunci, dacă doriți, poatedecide să rămână acolo pentru totdeauna, dar în caz de acțiune, există probabilitatea de a obține o recompensă+ și de arămâne într -un stat „Și Markovian Procesul decizional („Procesul de luare a deciziilor Markov”), R Wellman OD)Capitolul Instruire cu întăriri În continuare, o încercare poate fi repetată din nou și din nou pentru a obține orecompensă atât de mare, deoarece este posibil, totuși, la un moment dat, în schimb, în ​​schimb, intră într -o stare de$ p În cazul în care există doar două acțiuni posibile A sau A, un agent poate decide să rămână în loc, alegând în modrepetat o acțiune A sau să meargă la o stare de $ și să obțină o recompensă negativă (oh!) Într -o stare de $ nu areniciunul alegere dar Cum să luați măsurile AR, care este foarte probabil să o readucă la o stare cu o recompensă +atunci când tranziția, ați prins -o uitându -vă la acest proces MDP, puteți ghici ce strategie va oferi cea mai marerecompensă în timp? Este clar că cea mai bună alegere este acțiunea A, iar într -o stare de $, agentul nu are de alesdecât să accepte acțiunea ALF, dar nu este evident, agentul ar trebui să rămână în loc (a) sau să treacă Prinintermediul incendiului (a), Wellman a găsit o modalitate de a evalua pentru orice stare de s, indicată de ѵ*($),reprezintă valoarea tuturor premiilor viitoare, ținând cont de rata de actualizare pe care agentul o poate aștepta înmedie după atingând statutul de $, cu condiția El acționează optim Wellman a arătat că, dacă agentul acționează optim,atunci ecuația recursivă este aplicabilă în ecuație indică faptul că, dacă agentul acționează optim, atunci valoareaoptimă a stării actuale este egală cu recompensa, pe care o va primi în medie După adoptarea unei acțiuni optime, plusvaloarea optimă a tuturor statelor următoare posibile în care această acțiune II Partea II poate duce la rețeleleneuronale și la pregătirea profundă V*(s) Maxfl SS, T,) [I ($, A, a , s ') + v*(s')] pentru toate t (s, a, s ') -probabilitatea unei tranziții de la un stat la un stat, cu condiția ca agentul să aleagă acțiunea r (s, a) - Orecompensă pe care agentul o primește atunci când agentul primește atunci când trece de la stat la stat S ', cu condițiasă aleagă acțiunea - reducerea Rata ecuației duce direct la un algoritm, care poate evalua cu exactitate valoareaoptimă a fiecărei stări posibile, la început, toate evaluările valorilor statului sunt inițializate de zerouri, dupăcare sunt actualizate în mod repetat folosind algoritmul arătat în ecuație, un rezultat minunat este, că, cu suficienttimp, evaluarea este garantată să convergă în valorile optime ale statelor care corespund politicii optime a VK + (S)-T- Max în T (S, S ') [R (S, A, a , s ') + y pentru toate vfc (i) -Valoarea de evaluare a statului la iterația -iterațiade la Algogritme Inrey Inrey of Valives este Un exemplu care rupe sarcina (în acest caz, o evaluare a sumei potențialnesfârșite a premiilor viitoare, luând în considerare rata de actualizare) pentru împrumutul cu ușurință la procesareasubtasibilității, permițând o soluție iterativă (aici este găsirea acțiunii, care duce la maximum, plus valoareaurmătoarei stări Având în vedere rata de actualizare) Cunoașterea valorilor optime ale statelor pot fi utile, înspecial, pentru evaluarea politicii, dar nu spune agentului în mod clar ce să facă pentru fericire , Bellman a găsit unalgoritm foarte similar pentru evaluarea optimă (valoarea te-acțiune), de obicei Numită (~ IME) valoarea Q optimă aperechii „Pregătirea cu condiție cu acțiune de întărire” (S, A), indicată de Q*(S, A), este suma viitoarelor premii,luând în considerare reducerea rata pe care agentul o poate aștepta în medie după ce ajunge la un stat Și el va alegeacțiunea, dar înainte de a vedea rezultatul acestei acțiuni, sub rezerva comportamentului său optim după acțiune, acestaeste modul în care recepția tuturor valorilor Q este inițial inițial inițial de zero și apoi Actualizat folosind algoritmul dat în ecuație Qk + l (> i) £ lt (s, a, s ') i ($, l, $') + la max qk (s ', a') s 'i bpentru toate (s, a) după ce În toate sensurile Q optime sunt determinate de politica optimă, desemnat devine banalatunci când agentul este într-o stare, trebuie să aleagă acțiunea Cu cel mai mare preț Q pentru această stare de l*(i)argmax q*(s, a), să aplicăm un astfel de algoritm la procesul MDP, prezentat în orez, în primul rând, este necesar să sedetermine procesul MDP este imposibil pentru forma [s, a, s '] i Form [s, a, Acțiuni s i i e, vom lansa acumalgoritmul q -price ip q [stat, acțiuni] -inf pentru acțiuni imposibile pentru toate acțiunile posibile II Partea a II-a rețele neuronale și instruire profundă în intervalul de gamă I I I I În raza de acțiune, valorile Q rezultate aratăca Agghau, -inf -inf] Acțiunea optimă pentru fiecare stat de Agnau (ca urmare, obținem politica optimă pentru acestproces MDP, atunci când rata de actualizare este utilizată în stat $ alege acțiunea A, B, B Condiție - Acțiune A(trecerea prin foc!) Și în starea S - Acțiunea AH (singura acțiune posibilă) este interesantă de remarcat faptul că dacăreduceți rata de actualizare înainte, atunci politica optimă se va schimba în stat SJ devine cea mai bună acțiune(rămâneți în loc; trecerea prin foc), acest lucru are sens, deoarece dacă prezentul este mult mai mult decât viitorul,atunci perspectiva viitorului Premiile nu merită suferința imediată a sarcinii de a se antrena cu acțiuni discrete Demulte ori pot fi modelând ca procese de luare a deciziilor Markov, dar agentul nu are inițial habar despre tranzițiilede probabilități (nu știe t ($, dar, $ ')) și despre posibile recompense (nu știe r (s, a, s')) despre N trebuie săexperimenteze fiecare stat și fiecare Tranziția cel puțin o dată pentru a afla premiile și de mai multe ori pentru aobține o evaluare acceptabilă a probabilităților tranzițiilor, algoritmul este foarte similar cu algoritmul de iterație,dar este ajustat pentru a ține cont de faptul că agentul are doar o cunoaștere parțială a procesului În cazul general,MDP presupunem că șeful inițial de instruire cu întăriri, dar agentul cunoaște doar condiții și acțiuni posibile aleagentului aplică o politică de studiu - să zicem, o politică complet aleatorie - pentru a studia procesul MDP și așa cumeste acesta Promovarea algoritmului de învățare TD Actualizări Evaluările valorilor statului pe baza tranzițiilor șipremiilor obținute efectiv prin observații (ecuație) ѵK + C "A) + A (G + U- ѵKO)- Viteza de antrenament TD este în maremăsură similară cu Stochastic Descendența gradientului (SGD), în special prin faptul că procesează un eșantion la unmoment dat, cum ar fi algoritmul SGD TD, poate converge cu adevărat doar cu o scădere treptată a vitezei de antrenament(altfel va continua să sară aproape de optim) pentru fiecare Algoritmul urmărește pur și simplu TD Recompense mediidirecte glisante pe care agentul le primește la părăsirea acestei stări, plus premiile pe care se așteaptă să leprimească mai târziu (sub rezerva unui comportament optim) în mod similar algoritmului (EAP) este adaptarea algo-ritmului algo de iterație Conform Q-Price la situația în care probabilitatea tranzițiilor și probabilitateatranzițiilor și probabilitatea tranzițiilor și a premiilor sunt inițial cunoscute (ecuație) qfc + (s, a) h- (a) qfc ( s,a) + a (g + y u max qfc (s ', a') j pentru fiecare PA Ry „Transition de stat” ($, a) Acest algoritm Monitorizează unpremii medii glisante pe care agentul le primește atunci când părăsește statul prin acțiune, plus premiile pe care seașteaptă să le primească mai târziu, deoarece politica țintă ar trebui să acționeze optim, obținem un maxim de evaluăricu prețuri Q pentru următorul stat, deoarece cât mai posibil Implementați rețelele neuronale de algoritm de predare qși au început o pregătire profundă în starea O -INF pentru acțiuni imposibile II Actul ONSJ, valoarea inițială pentrutoate acțiunile posibile în intervalul de acțiune (P itrenis PR aleatoriu (PossIbla acțiuni [alegerea acțiunii (modaleatoriu) ou sot, interval u; selectați următoarea stare, folosind t [s, a] îerr rg rata * eward c str-mi ag; * pr marsp; sp tranziție la următoarea stare cu un număr suficient de Algoritmul Q-Learning Se numește valori Q optime care senumește algoritm pentru un politician folosit în învățare, nu este cel care este utilizat în timpul execuției este ușorsurprinzător faptul că acest algoritm este capabil să afle o politică optimă de politică optimă , pur și simpluobservând acțiunile aleatorii ale agentului (imaginați-vă Suficient cu atenție, cel puțin o politică pur aleatorie pânăla urmă Garantat pentru a vizita Fiecare stat va trece pentru fiecare tranziție de mai multe ori, acest lucru poate necesitaextrem de mult timp, prin urmare, ar fi o opțiune mai reușită (eedy la fiecare pas, se comportă în caz cu oprobabilitate de E sau lacomă (alegând acțiunea cu cea mai mare Q -preț) cu probabilitatea de £ avantajul unei politicide rugăciune (în comparație cu o politică complet aleatorie) în faptul că va petrece din ce în ce mai mult timp pentrustudiul unor părți interesante ale mediului, deoarece estimările Q - Semnificațiile devin mai bune Și mai bune,evidențiază totuși de ceva timp, procesul MDP este destul de des a început să viziteze zonele necunoscute ale procesuluiMDP și să o scadă treptat (de exemplu, înainte), șeful de instruire cu întărire ca alternativă în loc de în loc deBazându -se pe o șansă de cercetare, o altă abordare prevede stimularea politicii de studiu pentru testarea acțiunilorcare nu au fost testate anterior adesea așa cum se arată în ecuație, aceasta Dar să fie realizat sub forma unui bonusadăugat la estimările Q (S, A) (-A) Q (S, FL) + A (R + y maxf (q (s ', \ a !! n (s', a ') calculează de câte ori a fostselectată acțiunea în starea f (q și) - (Ploration fi), cum ar fi (d, și și) q + k ( + i), unde k este unhiperparameter Curiozitatea, care măsoară, la care agentul este pasionat de necunoscut, principala problemă cuQuarchingul Q este că nu se extinde bine la mare (sau chiar mediu ) Procese MDP Conținând, vom discuta despre multestate și acțiuni o încercare de a utiliza Q-Teaching pentru a învăța agentul să joace jocul doamna ras-hips Există pestecereale pe care domnișoara Pekman le poate mânca fiecare cereale poate fi prezent sau absent (că este deja mâncat) Deci,cantitatea există mai multe stări posibile decât ~ io (și aceasta State posibile doar de cereale) numărul rezultatdepășește numărul de atomi din galaxia noastră, deci nu există absolut nicio modalitate de a ține cont de evaluarePentru fiecare soluție individuală de valoare Q este de a găsi QQ (funcția S, a), care se calculează aproximativ q Sf Cuplurile „-acțiune de stat” i) Folosind numărul controlat de parametri (setat de vectorul parametrilor), abordarea esteapelată pe parcursul mai multor ani pentru a evalua Q-Estimates, a fost recomandat să se utilizeze combinații liniareale semnelor Creat din stat (să zicem, distanța până la cele mai apropiate fantome și direcția mișcărilor lor dedirecție Și T E) Cu toate acestea, sistemul DeepMind a arătat că utilizarea rețelelor neuronale profunde poate darezultate mult mai bune, în special în cazul complexului Sarcinile și un fel de construcție a rețelelor neuronale dinpartea a II -a și nu sunt necesare instruire profundă a semnelor Rețeaua DNN folosită pentru a evalua Q-sensurile senumește (Q) și utilizarea rețelei DQN pentru Qu-Teaching aproximativ, dar cum pot antrena rețeaua DQN? Luați înconsiderare un preț Q Closed calculat de rețeaua DQN pentru o pereche de „acțiune de stare” dată ($, a) datorităWellman Știm că acest preț Q aproximativ ar trebui să fie cât mai aproape de recompensă, pe care îl observăm de faptdupă ce am efectuat acțiunea într-o stare, plus valoare, ținând cont de rata de actualizare din jocul optim, începânddin acest moment, astfel încât Pentru a evalua o astfel de valoare viitoare, luând în considerare rata de actualizare,putem pur și simplu să conducem rețeaua DQN în următorul stat S 'pentru toate acțiunile posibile A' Vom obține un prețQ, viitor, pentru fiecare acțiune posibilă, apoi alegem Cel mai mare (pentru că presupunem jocul optim) pe care îl luămîn considerare rata de actualizare și, ca urmare, avem o evaluare a valorii viitoare, luând în considerare rata deactualizare, rezumând premiul și evaluând valoarea viitoare, ținând cont de reducere Rata, primim ținta Q-Price Y (S, A)pentru perechea „Status-Eature” ($ , ), așa cum se arată în ecuația y (s, a) g + pentru max qg (s, a ' ) A „Cu q-sânge qțintă, putem începe să învățăm folosind în special orice algoritm de coborâre a gradientului, de obicei vom încerca săminimizăm quadratic Eroarea dintre prețurile Q estimate și q-Target aici este întregul algoritm de bază al Q-Teaching-ului profund! Cu toate acestea, două modificări cheie au fost incluse în algoritmul DQN DEPMIND în loc să instruiascărețeaua DQN pe baza celei mai recente experiențe, DeepMind System stochează Experiența experienței în mare și lafiecare studiu de formare alege un pachet de antrenament aleatoriu din acesta, acest lucru ajută la reducerea corelațieidintre experimentele din geanta de antrenament, ceea ce ajută extrem de mult la învățarea sistemului DeepMind nufolosește nu una, ci două rețele DQN Primul, numit, este angajat în joc, iar șeful antrenamentului cu consolidareafiecărei iterații de antrenament, a doua, numită, este utilizat doar pentru a calcula sensurile Q vizate (vezi ecuația)prin intervale regulate Greutatea rețelei dinamice este copiată pe Target Rețeaua DeepMind a demonstrat că o astfel de schimbare îmbunătățeșteuimitor productivitatea algoritmului, de fapt, fără ca ea să fie singura rețea care își stabilește propriile obiectiveși încearcă să le atingă, care seamănă oarecum cu un câine care își urmărește coada ca urmare Bucle de feedback carefac rețeaua instabilă (poate dispersa, ezita, îngheța etc ) prezența a două rețele ajută la slăbirea acestor bucle defeedback, ceea ce duce la stabilizarea procesului de învățare în partea rămasă a capitolului pe care îl vom aplica Algoritmul DQN de la DeepMind pentru a învăța agentul să joace jocul MS RAS-MAP, aproape așa cum a făcut sistemulDeepMind în anul, codul poate fi ușor ajustat pentru antrenament destul de bine în majoritatea jocurilor Atari, cucondiția că studiază mult timp (zile sau săptămâni în funcție de echipamentul existent) în majoritatea jocurilor debere capac, codul este capabil să obțină artă supraumană, dar nu este atât de bun în jocurile cu linii de complot lungi,deoarece vom folosi Atari mediu inconjurator În primul rând, va fi necesar să se stabilească dependențele Atari de laOregpai Gym în același timp, vom stabili și dependențe pentru alte gimnastice media, care pot avea dorința de a lucra peo mașină cu macOS (sub rezerva instalației anterioare de casă, you need to enter such a $ command Brew Install CmakeBoost-Python SDL SWIG SWIG wget На машине c Ubuntu введите следующую команду (заменив на , если используется Python $apt-get install -у python -numpy python -dev cmake zliblg-dev libjpeg-dev \ xvfb libav-tools xorg-dev python -opengllibboost-all- dev l libsdl -dev swig swig part II rețele neuronale și antrenament profund, apoi instalați module Pythonsuplimentare (dacă utilizați mediul Virtoalenv, apoi activați-l) $ Rirz Instalare -upgrade Gym [All] 'Dacă totul aresucces, atunci trebuie să fiți în stare Creați mediul jocului MS RAS -MAP,) discret după cum puteți vedea, suntdisponibile nouă acțiuni discrete, care corespund nouă dispoziții posibile a joystick -ului (central, în sus, fixat Oh,la stânga, în jos, la dreapta, etc ), iar observațiile sunt doar imagini ale ecranului Atari (orez, stânga), prezentatca trei tablouri de ghiveci de dimensiuni, deoarece imaginile sunt destul de mari, vom crea o mică funcție de pre-procesare, care va tăia imaginea și o va reduce la x pixeli, o va transforma în nuanțe de gri și va îmbunătățiContrastul ecusonului Miss Pacman Această tehnică va reduce volumul calculelor cerute de rețeaua DQN și va acceleraantrenamentul MSPACMAN color PR Aggau>, Ig G S; Observarea preprocesului și XS tăiați și reduc dimensiunea II C, iar euse transform în nuanțe de gri I ! -Și și întăriți contrastul III și normalizați de la I P H Rezultatul procesăriipreliminare este afișat în orez (dreapta) În continuare, vom crea o rețea DQN, ar putea primi la intrare o pereche de„acțiune de stat” ($, I) și problemă Evaluarea valorii q-q-uri corespunzătoare (s, a), dar datorită faptului căacțiunile sunt discrete, mai convenabil și mai bine și mai eficient utilizează o rețea neuronală, care acceptă doarcondiția la intrare și oferă o evaluare a prețurilor Q a Rețeaua DQN va fi din Trei grupuri, în spatele cărora sunturmate de două straturi complete, inclusiv stratul de ieșire (orez), antrenamentul capului cu întăriri Observațiainițială (X, RGB) Observarea pre-procesată (X, nuanțe de gri) a Q- Elementele sângeroase sunt elemente de rasă completă Nămolul, X + (S) este Bundle, X + (S) Bundle Hb + (S) de intrare Forma x x x x x x x x Partea a II -a rețele neuronaleși învățare profundă, așa cum s -a discutat anterior, algoritmul de învățare DQN DeepMind dezvoltat de două rețele DQNcu aceeași arhitectură (dar în parametri diferiți) rețea dinamică DQN va învăța să gestioneze domnișoara Pekman, iar cuutilizarea țintei DQN, valorile Q țintă concepute pentru a preda rețeaua dinamică va fi calculat DQN prin intervaleregulate de timp vom copia rețeaua dinamică DQN în rețeaua țintă DQN, înlocuind parametrii săi, deoarece avem nevoie dedouă rețele DQN cu aceeași arhitectură, vom crea funcția CONV N MAPS pentru a le construi Conv Groeps Now Paddinq L ISopop are carduri, fiecare x este disponibil pentru acțiuni discrete Q Network în Zip Kar Nei I I Ia LiZer Ini, Conv DKernel Conv D L Bias conv d L Kernel Conv d prejudecata convocată dens dens dens dens kernel dens dens l părtiniredensă l kernel o 'Partea a II -a rețele neuronale și lacrimă profundă vom crea acum o intrare, două rețele și o operațiepentru copierea rețelei dinamice DQN Rețeaua țintă DQN IP Să ne luăm un timp scurt, avem două rețele DQN, pe careambele sunt capabile să le accepte la intrarea mediului Acest exemplu este o singură observație pre-procesată) și emite un preț Q evaluativ pentru fiecare posibilă acțiune înaceastă stare În plus, avem o operație numită pentru a copia valorile tuturor variabilelor instruite ale rețeleidinamice DQN în rețeaua țintă variabilă DQN corespunzătoare, folosim funcția TensorFlow pentru a grupa toateoperațiunile de credit în singura convenabilă Operația adaugă acum operațiunea de învățare a rețelei dinamice DQN înprimul rând, trebuie să putem calcula previziunile sale Q-sensuri pentru fiecare pereche de „acțiune de stat” din pachetdin memorie, deoarece rețeaua DQN produce un preț Q Pentru fiecare posibilă acțiune, pentru noi Este necesar sămenținem doar prețul Q care corespunde acțiunii efective efectuate pentru aceasta, transformăm acțiunea într-un vectorîntr-un cod unitar (nu uitați că un astfel de vector este umplut cu zerouri, cu excepția unei unități de același index)și Înmulțiți-l cu Q-Price ca urmare Toate valorile Q, cu excepția uneia, care corespunde acțiunii amintite, apoirezumăm pur și simplu prima axă pentru a obține doar prognosticul dorit al prețului Q pentru fiecare acțiune I i I ,; ,;I- True Capitol Învățare p Întărirea în continuare, creăm un umplutură pe care o vom folosi pentru a furniza valori Qțintă și calculăm pierderea, folosim o eroare cvadratică, atunci când este mai mică și am dublat o eroare absolută, cândo eroare cvadratică depășește cu alte cuvinte, Pierderea este cvadratică pentru Erori mici și liniare pentru erorimari, această tehnică reduce influența erorilor mari și ajută la stabilizarea învățării cu J NAP; În cele din urmă,creăm un optimizator bazat pe gradientul accelerat Nesterov pentru a minimiza pierderea, creăm și un lucru lipsit deimportanță O variabilă numită pentru urmărirea unui pas de instruire pe incrementalarea sa va avea grijă de operațiuneade formare în final, creăm o operație obișnuită și obiectul -False folosesc le zov g ue această etapă a construcțieiînainte de a trece la stadiul de execuție Trebuie să realizăm câteva instrumente cu implementarea memoriei de memorie,vom folosi lista, că este foarte eficient în ceea ce privește împingerea elementelor din coadă și împingerea elementuluivechi, atunci când este atinsă memoria maximă Vom scrie o funcție mică pentru o selecție aleatorie a unui pachet deexperimente din memoria redării, fiecare experiență va fi o motocicletă elementară (condiție, acțiune, recompensă,condiție următoare, continuare), unde elementul de „continuare” va fi egal atunci când Jocul este finalizat, sau altfelpartea a II -a este neurală Rețele și eșantion de instruire profundă amintiri I I IN IN ”; condiție, acțiune,recompensă, condiție următoare, au continuat după cum urmează, vom avea nevoie de un agent pentru observarea jocului,vom aplica o politică de încercare și vom reduce treptat la Două milioane de pași de a învăța Epsilon lacom laîntâmplare aleatoriu, acțiunea este acțiunea optimă, așa că avem tot ce ai nevoie pentru a începe antrenamentul înimplementarea execuției nu conține nimic deosebit de complicat, dar este destul de mare, așa că luați o respirațieadâncă gata? Atunci hai să facem Du -te! În primul rând Vom stabili mai mulți parametri numărul total de pași deînvățare pentru a începe învățarea după jocurile de iterații pentru a lansa un pas de învățare a fiecărui joc pentru asalva modelul la fiecare pași de învățare pentru a copia rețeaua dinamică DQN în rețeaua țintă DQN la fiecare pasÎnvățând să ratezi fiecare Jocuri (acesta este doar timpul de așteptare) Capitolul Antrenament cu consolidareaiterației iterației iterației iterației Iterarea Checkpoint Cather True, apoi trebuie descurajată, apoi a deschissesiunea și lansarea GLA Ciclul de învățare Voy „Adevăratul joc s-a terminat, începeți re-raza c) v (-ia B) Există șialte soluții ținând cont de faptul că A ® B (V V) A -> (A B), sau că A ® B (V B) A (~> A V A B A ), etc „Și„ „nu” \„UNU”, cu excepția V „sau” Persepthron -ul clasic va converge numai dacă setul de date este separat liniar și nu estecapabil să evalueze probabilitatea claselor în opusul acestui clasificator pe baza regresiei logistice va convergeîntr-o decizie bună Chiar și atunci când setul de date nu este separat liniar și dați probabilitatea claselor dacăschimbați funcția de activare a persepthronului la funcția logistică a activării (sau a funcției de activare multi-transilientă din Prezența multor neuroni) și învață -l folosind descendența gradientului (sau, un alt algoritm deoptimizare, un minim de costuri de costuri, de obicei entropie încrucișată), atunci persepthronul va deveni unclasificator echivalent bazat pe apendicele de regresie logistică o soluție la exercițiile exercițiilor Funcția deactivare logistică a fost un ingredient cheie în predarea primelor perseptine multistrat pentru că, pentru că, pentru că ce Derivatul său este întotdeauna nemuritor, astfel încât coborârea gradientului ar putea aluneca invariabil în jos pepantă atunci când funcția de activare este intensificată, descendența gradientului nu este capabilă să se miște, că nuexistă nicio funcție de pas, funcție logistică, tangență hiperbolică, element liniar îndreptat liniar ) Și un stratde ieșire cu neuroni artificiali, toți neuronii artificiali folosesc funcția de activare a relu -ului în forma matriceide intrare X este t x, unde dimensiunea formei pachetului de învățare a vectorului greutății stratului ascuns este x, șilungimea Vectorul său de deplasare este forma vectorului scalelor stratului de ieșire WO, iar lungimea vectorului săude deplasare a с, este forma matricei de intrare și rețeaua este t x y relu (relu (x + b^ ) Wo + b) Amintiți -vă asta Funcția REU setează pur și simplu la zero fiecare număr negativ din matrice, de asemenea, rețineți că atunci când seadaugă vectorul deplasărilor la matrice, este adăugată la fiecare linie din matrice, care se numește releu pentru aclasifica mesajele poștale pentru SPAM și Nu spam, în stratul de ieșire al rețelei neuronale, un singur neuron arenevoie de un singur neuron, de exemplu, indicând probabilitatea ca mesajul poștal să fie spam, de obicei atunci cândevaluați probabilitatea, veți utiliza o funcție logistică a activării în ieșire strat dacă sunteți în schimb Dacădoriți să vă implicați într -un set de date MNIST, atunci va trebui să aveți un neuron în stratul de ieșire și săînlocuiți funcția logistică a multi -aplicației și soluțiile la exerciții cu o funcție de activare rahat, care estecapabil să proceseze Multe clase, care emite o probabilitate clasei, în sfârșit, dacă doriți, Pentru ca rețeauaneuronală să prezică prețurile pentru case (vezi capitolul), este necesar un neuron de ieșire, în timp ce în stratul deieșire, funcția de activare nu folosește deloc distribuția opusă - aceasta este o tehnică folosită pentru a învățarețelele neuronale artificiale Prima calculată Gradele funcției de cost în raport cu fiecare parametru de model (toategreutățile și deplasările), după care se efectuează un pas de coborâre a gradientului folosind acești gradienți, oastfel de etapă de distribuție inversă este de obicei făcută de mii sau de milioane de ori folosind multe pachetedidactice în timp ce parametrii Modelele nu converg în valorile care (trebuie să se spere) minimizează funcțiacosturilor pentru calcularea gradienților Distribuția respectivă folosește diferențierea automată în modul invers (deșila momentul creării distribuției opuse nu a fost numită și în Adăugarea a fost inventată de mai multe ori) Diferențierea automată în modul invers efectuează un pasaj direct prin graficul de calcul, calculând valoarea fiecăruinod pentru pachetul de antrenament curent, apoi efectuează trecerea de retur, calculând toți gradienții simultan(căutați informații suplimentare în apendicele D) Deci, în Care este diferența? Cert este că distribuția opusă aparțineprocesului complet de predare a unei rețele neuronale artificiale folosind multe etape de propagare inversă, fiecarecalculând gradienții și le folosește pentru a efectua o descendență de gradient opusă, o diferențiere automată În modulinvers, este pur și simplu o tehnică de calcul eficient al gradienților, care, prin coincidență, este utilizat prindistribuția opusă a listei de hiperparametre care pot fi ajustate în persetron de bază cu mai multe niveluri, numărul destraturi ascunse, numărul de număr de neuroni în fiecare strat ascuns și, de asemenea, Funcția de activare utilizatăatunci când valorile prevăzute poate varia în mai multe comenzi, atunci puteți prefera predicția logaritmului valoriițintă și nu a valorii cele mai vizate, calculul simplu al producției rețelei neuronale va oferi o evaluare Valoarea(adică) Apendicele O soluție de exerciții în fiecare strat ascuns și în stratul de ieșire este de obicei o alegerestandard bună pentru straturile ascunse este funcția de activare REU (sau una dintre opțiunile sale; vezi capitolul) dinstratul de ieșire De regulă, va fi aplicată funcția logistică a activării pentru clasificarea binară, o funcție deactivare multi -transilientă pentru o clasificare multi -clasa sau deloc funcție de activare dacă o persepatron cu maimulte niveluri este supraîncălzită de învățarea datelor, atunci puteți încerca Pentru a reduce numărul de straturi șinumărul ascuns Neuronii de pe stratul ascuns al caietului Jupyter, nu sunt accesibili la adresa, toate greutățiletrebuie să fie selectate independent; Nu ar trebui să aibă totul aceeași valoare inițială a obiectivului important algreutăților aleatorii Încălcarea simetriei dacă toate greutățile Acestea au aceeași semnificație inițială, chiar diferită de zero, atuncisimetria nu este încălcată (că toți neuronii din stratul dat sunt echivalenți), iar distribuția opusă este incapabilă săo încălzească mai precis, toți neuronii din orice strat dat vor fi întotdeauna A avea aceleași greutăți este ca dacă arexista un singur neuron pe un strat, dar este aproape imposibil să convergeți mai lent decât o astfel de configurațieîntr -o decizie bună de inițializare a deplasării zero -urilor este complet acceptabilă pentru unii oameni care le placesă le inițializeze Ca greutăți, care este, de asemenea, normal; Nu există o diferență mare în abordările de mai jos auindicat mai multe avantaje ale funcției de activare a ELU în comparație cu REU În capitolul am discutat despre multetehnici care introduc hiperparametre suplimentare tip de inițializare a greutății, hiperparametre de activare (Săspunem, valoarea scurgerii în scurgeri cu scurgeri), pragul de tăiere a gradienților, tipul de optimizator șihiperparametrele sale (de exemplu, hiperparametrul momentului în cazul utilizării), tipul de regulator pentru Fiecarestrat și hiperparametre de reglementare (de exemplu, ponderea deconectării atunci când se folosește oprirea) și T -IApendicele A Soluții ale exercițiilor Funcția de activare a ELU poate lua valori negative și, prin urmare, producțiamedie a neuronilor în orice strat dat este de obicei mai aproape decât în ​​cazul utilizării funcției de activare REU(care nu dă niciodată valori negative) Acest lucru ajută la înmuierea problemei dispariției gradienților, areîntotdeauna un derivat inutil, evitând problema elementelor decolorate, care pot fi supuse funcției de activare aelementelor relu spasmodic Se modifică la o schimbare atât de ascuțită poate încetini o coborâre a gradientului,deoarece va sări în apropierea funcției de activare Z ELU este o alegere bună, în mod implicit, dacă este necesar, carețeaua neuronală să fie cât mai rapidă, apoi să utilizeze opțiuni în schimb REU cu o scurgere (să spunem, un elementsimplu REU cu o scurgere, folosind valoarea standard de hiperparameter), ușurința funcției de activare relu îl face oalegere preferată pentru mulți oameni, în ciuda faptului că, în general o scurgere Cu toate acestea, capacitateafuncției de activare REU de a emite exact zero în unele cazuri poate fi utilă (căutați în capitol) funcția tangentăhiperbolică (TANH) poate fi convenabilă în stratul de ieșire, dacă trebuie să dați numărul dintre și dar În prezent, înstraturi ascunse, este utilizat rar funcția logistică a activării este utilă și în stratul de ieșire atunci când estenecesar să se evalueze probabilitatea (să zicem, pentru clasificarea binară), dar este rar utilizat în straturi ascunse(există excepții - De exemplu, pentru o codificare Stratul unei variații a unui codificator de mașini; vezi capitolul)În cele din urmă, funcția de activare multi-transilientă este convenabilă în stratul de ieșire atunci când emiteprobabilități pentru clase reciproc exclusiv, dar în afară de aceasta, este Rareori utilizat în straturi ascunse dacăsetați valoarea atunci când utilizați Hiperparameterul este prea aproape de (să zicem,), atunci algoritmul va câștigaprobabil viteză mare, cu speranța de a ajunge la un minim global, dar atunci din cauza momentului său va lipsi, scăzândimediat după un minim de mai departe cererea și de cerință și de la cerere și de Soluția exercițiilor și Se vaîntoarce, va accelera din nou, va lipsi din nou, etc Algoritmul se poate balansa în acest fel de multe ori înainte de aconverge, astfel încât, în final, convergența sa va necesita mult mai mult timp decât cu un sens mai mic, prima metodăde obținere a unui rarefiat Modelul (adică, un model cu majoritatea Zero Balanță) prevede formarea modelului în modobișnuit, urmat de inversarea scărilor foarte mici, a doua metodă care oferă o mai mare rulozitate implică utilizareareglementării în timpul antrenamentului, care împinge optimizatorul Pentru a rarefita cea de -a treia metodă se află Faptul pentru a combina reglementarea cu o medie dublă, folosind clasa de la TensorFlow Da, oprirea încetinește procesulde învățare, în general, aproximativ de două ori, însă nu afectează excreția, deoarece se pornește doar în timpulantrenamentului a exercițiilor Și căutați Jupyter în caietele disponibile la adresa Tensorflow de adresă de la începutsurprinde toată memoria disponibilă în toate procesoarele grafice care sunt vizibile pentru acesta în acest fel, dacăobțineți o greșeală atunci când începeți programul TensorFlow, atunci probabil Motivul se datorează faptului că alteprocese efectuate au ocupat deja întreaga memorie, cel puțin un GP vizibil (cel mai probabil, acesta este un alt procesde flux tensor), soluția banală a problemei prevede oprirea altor procese și a re -aunchinului a programului TensorFlow Cu toate acestea, dacă toate procesele trebuie efectuate în același timp, atunci O opțiune simplă ar fi alocarea fiecărui proces al dispozitivului său prin instalarea adecvată a mediului \ i \ pentrufiecare dispozitiv o altă opțiune - pentru a configura tensorflow pentru a capta doar o parte din memoria GP De ce săcreezi un obiect, să indici în apendicele sale A despre soluțiile exercițiilor parametrului întregii memorii pe caretrebuie să le capteze (de exemplu,) și să aplice acest obiect la deschiderea sesiunii, ultima opțiune este de a informaTensorFlow despre Nevoia de a surprinde memoria doar după cum este necesar, după ce a stabilit -o, cu toate acestea, deobicei nu este recomandat să utilizați această abordare, deoarece orice memorie care este capturată TensorFlow nu esteniciodată eliberată și este dificil să garanteze un comportament repetat (pot apărea competiții În funcție de procesul Primul începe câte memorie au nevoie de procese în timpul antrenamentului, etc ) Atașarea operației la dispozitiv,spuneți TensorFlow despre locul în care este de dorit să plasați această operație, cu toate acestea, o serie derestricții pot împiedica Tensorflow să fie satisface -l pe al tău Solicitare, de exemplu, operația nu poate avea oimplementare (numită nucleu) pentru un tip specific de dispozitiv în acest caz, în mod implicit, TensorFlow va genera oexcepție, dar îl puteți configura astfel încât să fie în loc de operația în procesorul central ( Aceasta se numeșteplasare soft) Altele Un exemplu este o operație care poate modifica variabila; O astfel de operație și variabila artrebui să fie localizate în acest fel, diferența dintre atașamentul și plasarea operației este că atașamentul este osolicitare la tensorflow („Vă rugăm să plasați acest lucru Operațiune pe GP”), iar plasarea este o acțiune care În celedin urmă, TensorFlow realizează („Este păcat, dar operația este plasată în procesor”) dacă lucrați cu copia instalată aTensorFlow, care acceptă procesoare grafice și utilizați plasament standard, atunci dacă toate operațiunile Au nucleulGP (aceasta este implementarea pentru GP), apoi vor fi plasate cu adevărat pe primul dispozitiv GP, cu toate acestea,dacă una sau mai multe operații nu au nucleul GP, atunci tensiunea implicită va genera excepția Dacă configurațibiblioteca TensorFlow, astfel încât să pună operațiuni în procesor (plasament soft) în schimb, atunci pe primuldispozitiv GP toate operațiunile, cu excepția celor care nu au nucleul GP și operațiunile care ar trebui plasate lângă Ele (a se vedea răspunsul anterior) Anexa o decizie a exercițiului Da, dacă atașați o variabilă K, atunci poate fiutilizată de operațiunile plasate pe biblioteca TensorFlow va avea grijă să adauge operațiuni adecvate pentru atransmite variabila între dispozitive la fel Se aplică dispozitivelor situate pe servere diferite (cu condiția să facăparte dintr -un cluster) Da, două operații plasate pe un dispozitiv pot fi efectuate în paralel tensorflow vor aveagrijă de lansarea operațiunilor în mod paralel (pe diferite nuclee de procesor sau în Diferite fluxuri de GP), cucondiția ca operațiunile să nu depindă de rezultatele altor operații, cu excepția, puteți rula multe sesiuni în fluxuriparalele (sau procese) și să efectuați operațiuni în fiecare flux, deoarece sesiunile sunt independente, TensorFlow are Capacitatea de a efectua o operație dintr -o sesiune în paralel cu operația dintr -o altă sesiune de dependență decontrol este utilizată atunci când este recomandabil să amâne evaluarea operațiunilor până la efectuarea altor operații,chiar dacă nu sunt obligatorii pentru calculare X este util mai ales atunci când operația X ia o cantitate mare dememorie și este necesară abia mai târziu în coloana de calcul sau dacă X folosește o mulțime de operațiuni de intrare-ieșire (să zicem, necesită o variabilă mare localizată pe un alt dispozitiv sau server ), si tu Nu doriți să oefectuați simultan cu alte operațiuni cu o intrare și o ieșire intensă pentru a evita saturația benzii de trecere, aveținoroc! În versiunea distribuită a tensorflow, valorile variabilelor sunt în containere controlate de un cluster, decichiar dacă închideți sesiunea și completați Lucrarea programului client, parametrii modelului vor exista în siguranțăîn cluster, trebuie doar să deschideți o nouă sesiune în cluster și să salvați modelul (asigurați -vă că nu apelațivariabile și nu restabiliți Modelul anterior, care va distruge unul nou Un model mai precis!) Soluții ale exercițiilorși va căuta Jupyter în caiete disponibile la adresa A a soluțiilor de exercițiu de mai jos sunt principalele avantajeale rețelei CNN în comparație cu complet -Chinding rețea de DNN pentru clasificarea imaginilor de la următoarea dupăalta Straturile își folosesc doar greutățile parțial și intens, rețeaua CNN are mult mai puțini parametri, decât rețeaua de rasă completă DNN, ceea ce o face mult mai rapidă în formare, reduce riscul de recalificare și necesităo cantitate semnificativ mai mică de date de instruire Când rețeaua CNN a recunoscut miezul care poate detecta unanumit semn, poate identifica această caracteristică oriunde în imaginea opusă, atunci când rețeaua DNN a recunoscutsemnul într -un singur loc, o poate detecta doar în acest loc Deoarece imaginile au de obicei funcții foarte repetate,CNN Network este capabil să rezume mult mai bine decât rețelele DNN pentru sarcini de procesare a imaginilor, similar cuclasificarea, folosind un număr mai mic de eșantioane de instruire, în sfârșit, rețeaua DNN nu are cunoștințe a prioridespre modul în care este organizat pixeli; Ea nu știe că pixelii vecini sunt apropiați în arhitectura rețelelor CNN,astfel de cunoștințe a priori sunt construite -în straturi inferioare identifică de obicei semne în zone mici deimagini, iar straturile superioare combină semne cu nivel scăzut în semne mai mari Abordarea funcționează bine cu celemai multe imagini naturale, de la bun început, oferind rețelelor CNN un avantaj decisiv în comparație cu rețelele DNN,să calculăm câți parametri o astfel de rețea CNN de la primul său strat de pachet conține X nuclee și intrarea Are treicanale (roșu, verde și albastru), fiecare hartă a cărților are o bibliotecă X X, plus un membru al deplasării, sedovedește parametrii de pe o carte de semne, deoarece în primul strat timid există cărți de semne, în Total are un aldoilea parametri de pachet Stratul conține nucleele X, iar intrarea sa este un set de cărți cu semne ale stratuluianterior, astfel încât fiecare carte de carte are o greutate X -IN plus un membru al deplasării, deoarece acest stratinclude carduri de caracteristici, conține x parametri Apendicele A Soluțiile sunt în sfârșit al treilea (și ultimul)stratul de pachet are și un nucleu X, iar intrarea sa este un set de cărți ale semnelor stratului anterior și, prinurmare Descriere membru de la acesta Stratul include carduri de semne, are x parametri în rețeaua generală CNN are + +parametri și acum vom afla cât de multă memorie (cel puțin) va necesita o astfel de rețea neuronală atunci când sedezvoltă o prognoză pentru un singur eșantion în primul rând Calculăm dimensiunile cardurilor caracteristicilor pentrutoate straturile, deoarece folosim struda și aceeași adăugare, în fiecare strat dimensiunile orizontale și verticale alecărților caracteristicilor sunt împărțite (cu rotunjirea în cel mai mare mod, dacă este necesar) Prin urmare, cucanalele de intrare ale pixelului Cardurile de semne ale primului strat vor fi x, al doilea strat - x și al treileastrat - x De când bat -ul consecvent de octeți și primul strat de pachet are semne, acest strat va lua x x x milioane debytes (aproximativ un MB Având în vedere Faptul că MB KB și KBYTTE BAYTA) Al doilea strat va necesita x x x milioane deocteți (aproximativ MB) al treilea strat va lua x x bs (aproximativ MB), cu toate acestea, după calcularea stratului,memoria ocupată de stratul anterior poate fi Este lansat, așa că, dacă totul este bine optimizat, va dura doar +milioane de octeți (despre MB) de memorie (când al doilea strat este doar calculat, dar memoria ocupată de primul stratnu este încă lansată), dar așteptați, dvs De asemenea, trebuie să adăugați memoria ocupată de parametri Rețeaua CNN aaflat anterior că rețeaua are parametri, fiecare implicând octeți și, prin urmare, adaugă octeți (în jur de MB),cantitatea totală a memoriei necesare este (cel puțin) octeți (aproximativ MB), în concluzie, calculăm cantitatea minimăde memorie Ceea ce este necesar atunci când instruiți o rețea CNN pe un mini-pachet din imagini în timpulantrenamentului TensorFlow folosește o distribuție inversă, care necesită păstrarea tuturor valorilor calculate întimpul unui pas direct, până la începerea etapei inversă, trebuie Calculați cantitatea totală de memorie pe careaplicația și soluția exercițiilor necesită toate straturile pentru un singur eșantion și înmulțiți -o cu! Din acestmoment, să începem să numărăm în megabytes și nu în octeți am calculat anterior că trei straturi De asemenea, acesteanecesită un MB pentru fiecare eșantion ca urmare, avem un MB pe eșantion în acest fel, pentru probe, cantitatea totalăde memorie este un MB adaugă la ea cantitatea de memorie necesară pentru stocarea imaginilor de intrare, care este x x xx x x x milioane de octeți (aproximativ MB), plus cantitatea de memorie necesară pentru parametrii modelului, careeste aproximativ MB (calculată anterior), plus cantitatea de memorie pentru gradienți (ignorăm această memorie, acestava fi eliberat treptat ca răspândire inversă Conform straturilor din timpul pasajului invers), în total, avemaproximativ + + + kommersant MB și acesta este de fapt un minim absolut optimist dacă în timpul antrenamentului rețeleiCNN în procesorul dvs grafic, există o lipsă de memorie Adică cinci acțiuni pe care le-ați putea întreprinde pentru a încerca să rezolvați problema (cu excepția achiziției de GP cu ocantitate mare de memorie) pentru a reduce dimensiunea mini-pachetului; scădeți dimensiunea folosind un pas mai mareîntr -unul sau un număr mai mare de straturi; Ștergeți unul sau mai multe straturi; Aplicați valorile bitului cu unpunct plutitor în loc de mușcătură; Distribuie rețeaua CNN între multe dispozitive pe care stratul de asociere nu aredeloc parametri, în timp ce stratul de pachet are destul de multe dintre ele (vezi răspunsurile anterioare) denormalizare locală Răspunsul face ca neuronii care sunt cei mai activi, suprimă neuronii în aceeași locație, dar înhărțile vecine ale semnelor, ceea ce stimulează diferite hărți de semne pentru a se specializa datorită separării șiconstrângerii lor pentru a studia o gamă mai largă de semne de recepție De obicei, este utilizat în straturileinferioare pentru a avea o unificare mai mare a caracteristicilor la nivel scăzut, pe baza cărora pot fi construitestraturile superioare ale apendicelui A, principalele inovații ale Alexnetului în comparație cu Lenet s-au datoratfaptului că Alexnet este mult mai mare și Alexnet și Alexnet pune straturile de pachet direct unul pe celălalt și nuplasează stratul de unificare deasupra fiecărui strat de pachet cu principala inovație a GoogleNet este introducereamodulelor de pornire care vă permit să aveți o rețea mult mai profundă decât Arhitectura anterioară a rețelei CNN Cu unnumăr mai mic de parametri, în sfârșit, principala inovație a RESNET este introducerea legăturilor de ocolire care aufăcut posibilă depășirea cu mult dincolo de straturile probabil de simplitate și de consistența RESNET pot fi, deasemenea, considerate soluții inovatoare de exerciții și să caute Jupyterter În caiete disponibile pentru software Adresa de mai jos este descrisă de mai multe aplicații pentru rețelele RNN pentru tipul de rețea RNN „închis lasecvență” prognozarea vremii (sau a oricărei alte serii de timp), traducere automată (folosind arhitectura „Coder-decoder-Driver”), Supply Supply de subtitrări video, transformarea vorbirii în text, generarea de muzică (sau altesecvențe), identificarea Aportos în melodie pentru clasificarea de tip RNN Type Network „Squesed to the Vector” afragmentelor muzicale pe genuri, analiza semantică a recenziilor de cărți, care prezice cuvântul că pacientul caresuferă de afazie (deficiență de vorbire), bazat pe semnale de la implantat În creierul implanturilor, prezicândprobabilitatea ca utilizatorul să vrea să urmărească un film bazat pe cronologia sa de vizualizări (una dintrenumeroasele implementări posibile ale filtrării comune) pentru rețeaua de tip RNN, semnarea imaginilor, creând o listăde muzical funcționează pe baza încorporării Performerul actual, generația de melodie bazată pe setul de parametri,determină locația pietonilor din fotografie (de exemplu, pe camera video de la camera unei mașini fără pilot) Apendice Aîn general vorbind, dacă traduceți propunerea de către Un singur cuvânt la un moment dat, rezultatul va fi groaznic Deexemplu, propunerea franceză „Je vous gie” în engleză arată ca „ești binevenit” („binevenit”), dar ca urmare atraducerii cu un singur cuvânt, propunerea „I You in RGAU” va fi obținută („ Sunt în rugăciune ") Îmi pare rău, ce?Mult Este mai bine să citiți inițial întreaga propunere și apoi să traduceți rețeaua RNN simplă de tipul „Secvența însecvență” ar începe să traduceți propoziția imediat după citirea primului cuvânt, în timp ce tipul de rețea RNN „Coduri-decoder” citește mai întâi mai întâi citește mai întâi Întreaga propoziție și abia atunci Cu toate acestea, ar fitradus, ar fi posibil să ne imaginăm o simplă rețea RNN de tipul „secvență într-o secvență”, care ar da tăcere ori decâte ori nu este sigură de ce să spună următoarea (exact cum fac traducerea oamenilor când fac atunci când factraducerea oamenilor atunci când Traducerea unei transmisii directe) pentru a clasifica videoclipuri pe bazaconținutului vizual, o posibilă arhitectură ar putea lua (spune) cu un cadru pe secundă, conduceți fiecare cadru printr-o rețea neuronală de ruptură, transferați rețeaua CNN la tipul de rețea RNN „Secvență în vector” și În concluzie,pentru a -și conduce ieșirea printr -un strat multi -cross, oferind toate probabilitățile claselor pentru instruire,puteți folosi pur și simplu entropia încrucișată ca funcție a costurilor, dacă doriți să utilizați și trafic audiopentru a clasifica, puteți converti Fiecare secundă a traficului audio către spectral, transferați această spectrogramăîn rețeaua CNN și ieșirea rețelei CNN în rețeaua RNN (împreună cu ieșirea corespunzătoare a unei alte rețele CNN) esteconstrucția rețelei RNN folosind funcția, Și nu, dă mai multe Avantajele funcției se bazează pe o operație, care întimpul distribuției inversă poate schimba memoria GP și memoria procesorului, evitând greșelile lipsei de memorie, esteprobabil să fie mai ușor de utilizat, deoarece Poate lua direct un singur tensor precum intrarea și Calea de ieșire (care acoperă toți pașii temporari) și nu o listăde tensori (unul printr -un pas temporar) nu este necesar să se pună, să restaureze sau să transpunem, generează ungrafic mai mic soluții la secvențele de intrare ale variabilei Lungimea este cea mai ușoară, setarea parametruluiatunci când apelați funcții sau o altă opțiune avertizează adăugarea de intrări mai mici (de exemplu, zero) pentru aface dimensiunea lor la fel ca la cea mai mare intrare (această opțiune poate fi mai rapidă decât prima, dacă toate Intrări Secvențele au lungimi foarte similare) Dacă lungimea fiecărei secvențe de ieșire este cunoscută în avans,atunci puteți utiliza parametrul pentru a prelucra secvențele de ieșire de lungime variabilă (de exemplu, gândițisecvența ”, care marchează fiecare cadru din videoclip O măsură de cruzime va fi secvența de ieșire are aceeași lungimeca secvența de intrare) Dacă nu știți în avans lungimea secvenței de ieșire, puteți aplica trucul cu În plus, pentru aemite întotdeauna o secvență de aceeași dimensiune, dar ignorați -o Orice ieșiri care vin după marcajul sfârșituluisecvenței (ignorându -le atunci când se calculează funcția de cost), o metodă comună de distribuire a antrenamentului șiefectuarea unei rețele RNN profunde între numeroasele GPS prevede plasarea fiecărui strat pe GP -ul său ( Vezicapitolul) din soluția exercițiilor și căutați Jupyter în caiete disponibile la adresa de mai jos mai multe sarciniprincipale pentru care codurile auto sunt utilizate pentru a selecta semne; pregătire preliminară fără profesor;scăderea dimensiunii; Generarea modelelor; Detectarea anomaliilor (de regulă, un codificator auto, este rău larestabilirea emisiilor) I Apendice A soluții de exerciții dacă doriți să instruiți un clasificator și să aveți omulțime de date de instruire improbabile, dar doar câteva mii de probe marcate, atunci atunci Mai întâi puteți antrenaun codificator mai profund la un set complet de date (marcat și impropriu), apoi re -utilizați Jumătatea inferioară astraturilor pentru clasificator (adică până la incluziv incluziv) și antrenează clasificatorul folosind datele marcatedacă nu există suficiente date, atunci atunci când antrenezi clasificatorul, poate doriți să înghețați straturile redusede recuperare perfectă a intrărilor Nu înseamnă neapărat că un codificator de mașini este bun; Poate că este pur șisimplu o creștere a unui codificator de mașini care a învățat să -și copieze intrările în stratul de codificare și apoiîn ieșiri, chiar dacă stratul de codificare conține singurul neuron Un codificator de mașini foarte profund este foarteposibil să antreneze o comparație a fiecărui eșantion de antrenament cu o codificare diferită (să zicem, primul eșantionar putea fi comparat cu al doilea - cu al treilea - cu etc ), acest codificator de mașini ar putea învăța „ pe de rost" Cum să restaureze eșantionul de antrenament corect pentru fiecare codificare, el și -ar restabili perfect intrările, defapt nu recunoaște niciun șablon util în ceea ce privește în practică, o astfel de comparație este puțin probabil să seîntâmple, dar ilustrează că reconstrucția perfectă este complet Autocrația a ceva util nu este garantată, cu toateacestea, dacă produce reconstrucții foarte slabe, atunci el este aproape neapărat un codificator de mașini rău pentru aevalua performanța codificatorului auto, puteți măsura pierderea din cauza reconstrucției (de exemplu, calculați MSE,pătratul mediu al diferenței dintre ieșiri Și înregistrări) și, din nou, pierderi mari din cauza semnalelor dereconstrucție că codificatorul auto este rău, dar pierderea scăzută din cauza reconstrucției nu garantează că este bine,ar trebui să evaluați și, de asemenea Codificatorul auto cu privire la ceea ce va fi utilizat de exemplu, Dacă va fiutilizat pentru pregătirea preliminară a clasificatorului fără profesor, atunci va trebui să evaluați și performanțaAnexei de clasificator o decizie a exercițiilor, un codificator de mașini reducător este un astfel de codificator auto,care are mai puțin un strat de codificare decât straturile de intrare și ieșire dacă codifică Stratul este mai mare,codificatorul auto devine în creștere principalul risc al unui codificator motor excesiv de scădere în faptul că poateeșua cu restabilirea intrărilor, principalul risc al creșterii codificatorului auto se datorează celor faptul că poatecopia pur și simplu intrările în ieșiri Învățând despre orice caracteristică utilă pentru a conecta greutățilestratului de codificare cu greutățile corespunzătoare ale stratului de decodare, trebuie să faceți ca greutateadecodificatorului să fie egală cu biblioteca transpusă a codistului, această jumătate reduce numărul de greutăți dinmodel , oferind adesea o convergență mai rapidă Cu un volum mai mic Datele de instruire și reducerea riscului de recalificare prin setul de antrenament O tehnicăcomună de vizualizare a semnelor pe care cel mai scăzut strat al codificatorului de mașini cu mai multe niveluri esterecunoscut, prevede desenarea greutăților fiecărui neuron prin schimbarea formei fiecărei greutăți vector pentru a aducedimensiunea imaginii de intrare (să spunem, în cazul unui set de date mnist, o modificare a formei vectorului degreutate de la i) pentru a vizualiza semnele studiate de straturi superioare, este necesar să Afișați eșantioanele deantrenament care au activat cel mai mult fiecare neuron care generează un model - acesta este un model capabil dealeatoriu Pentru a genera rezultate care seamănă cu eșantioane de instruire, de exemplu, după o pregătire cu succes lasetul de date MNIST, un model generator poate fi utilizat pentru a genera accidental imagini realiste ale numerelor Distribuția de ieșire este de obicei similară cu datele de instruire, să zicem, deoarece MNIST Setul de date conținemulte Imaginile fiecărei cifre, care generează modelul, ar da aproximativ același număr de imagini ale fiecărei cifre aunor modele generatoare pot fi parametrizate, generând doar anumite tipuri de ieșiri cu un exemplu de purtător de mașinigeneratoare este un carcodar variațional al soluției de exerciții și căutați în caiete Jupyter, accesibil la adresa I aapendicelui A decizie a exercițiilor, este o zonă de formare în consolidare care vizează crearea de agenți care pot luaacțiuni într -un mod care duce la un premiu maxim în timp, există multe diferențe Între învățarea cu întărirea,educația obișnuită cu un profesor și învățarea fără profesor, acestea sunt unele diferențe în învățarea cu un profesorși fără profesor, obiectivul este de obicei să găsească șabloane în date și utilizarea acestora pentru a dezvoltaprognoze în formare Scopul este de a consolida în găsirea unei politici bune, spre deosebire de învățarea cuprofesorul, agentul nu primește răspunsul „corect” într -un mod explicit, ar trebui să studieze procesul și eroarea,spre deosebire de învățarea fără profesor, există un anumit Forma de control prin Nu indicăm recompensele către agentcum să facă munca, dar să o anunțăm atunci când face succese sau tolerează eșecul agentului de învățare cu întărirea,trebuie să găsiți echilibrul corect între studiul mediului în căutarea unui nou modalități de a obține premii șifuncționarea surselor premii pe care le cunoaște deja, în contrast cu sistemul de pregătire cu profesorul și fără unprofesor nu ar trebui să se îngrijoreze de obicei de studiu; Pur și simplu consumă datele didactice furnizate de aceștiaîn învățarea cu profesorul și fără un eșantion de formare a profesorului, cum ar fi Regula este independentă (de fapt,sunt de obicei amestecate) în formarea cu întărirea, observațiile consistente în cazul general nu sunt independente,agentul poate rămâne în aceeași zonă a mediului înainte de a continua, prin urmare, observații consistente În unelecazuri, memoria de reproducere va fi foarte conectată unul cu celălalt pentru a garanta primirea algoritmului deînvățare pentru Anexa de observații destul de independente, iar soluțiile de exerciții de mai jos descrie câtevaaplicații posibile cu întărire, diferite de cele menționate în Șeful personalizării lucrărilor muzicale este un agentde radio web al utilizatorului personalizat este un program care decide ce melodie să joace următorul pentru acestutilizator acțiuni posibile vor fi reproduse de orice melodie din catalog (agentul ar trebui să aleagă melodia pe careutilizatorul va placea) Sau reproducere publicitară (agentul ar trebui să încerce să aleagă o reclamă care săintereseze utilizatorul) agentul primește un premiu mic de fiecare dată când utilizatorul ascultă o melodie, orecompensă mai mare, atunci când utilizatorul ascultă publicitatea, un premiu negativ, atunci când Utilizatorul rateazăo melodie sau o publicitate și una mare Un premiu negativ, dacă utilizatorul părăsește programul de către mediu estedepartamentul de marketing al agentului companiei dvs este un program care determină ce clienți ar trebui să trimităpublicitate prin e -mail, ținând cont de profilul lor și de istoricul achizițiilor (fiecare client are Două acțiuniposibile și nu o trimit ) Agentul primește un premiu negativ pentru costurile campaniei de publicitate și o recompensăpozitivă pentru venitul estimat din cauza acestei campanii, lăsați agentul să gestioneze parcarea de livrare, luânddecizii cu privire la care bunuri ar trebui să fie încărcat ei din depozitele în care ar trebui să meargă, ce trebuiedescărcat de la ei, iar agentul va primi un premiu pozitiv pentru fiecare mărfuri livrate la timp și un premiu negativpentru livrare întârziată atunci când evaluează valoarea acțiunii algoritmului de învățare cu armare, De regulă, toate premiile au rezumat această acțiune, oferind o greutate mai mare pentru a direcționa recompensele șigreutatea mai mică la premiile ulterioare (ținând cont de faptul că acțiunea are un impact mai mare asupra viitoruluiapropiat decât în ​​viitorul îndepărtat), astfel încât Apendicele A a soluțiilor exercițiilor pentru a simula acestlucru, la fiecare pas, se folosește de obicei o rată de actualizare, cu o rată de actualizare în evaluarea valoriiacțiunii premiului, obținută cu două etape mai târziu, este făcută în Cont doar ca X vă puteți gândi la reducere Pariulca măsură a cât de mult este apreciat viitorul în comparație cu prezentul dacă rata de actualizare este foarte aproape,atunci viitorul este apreciat aproape la fel cu prezentul dacă este aproape, atunci doar recompensele directe suntimportante, desigur Acest lucru afectează extrem de mult politica optimă dacă apreciați viitorul, puteți fi gata să văînțelegeți cu o suferință imediată puternică pentru șansa de a obține recompense posibile, dar dacă nu apreciațiviitorul, atunci veți obține pur și simplu recompense directe care Îl puteți găsi, niciodată investind în viitorpentru a măsura performanța unui agent de formare cu întărire, puteți pur și simplu să rezumați premiile pe care leprimește în mediul simulat, veți alunga multe episoade cu vizionarea premiilor finale pe care agentul le primește inmedie (și, eventual, minimul, maximul, abaterea standard, etc ) Problema alocării raporturilor de încredere este că,atunci când un agent de pregătire cu consolidare primește o recompensă, el nu are o modalitate directă de a afla caredintre acțiunile sale anterioare au contribuit la acest De obicei, apare cu o întârziere mare între acțiune și premiirezultate (să spunem, în timpul jocului Pong Atari din momentul în care mingea agentului a lovit mingea până cândcâștigă mai multe zeci de pași temporari) pentru a înmuia problema, pentru a înmuia problema Dacă este posibil, estenecesar să oferim agentului premii pe termen scurt, de regulă, este nevoie de cunoștințe a priori despre sarcină, deexemplu, dacă dorim să construim un agent care să învețe să joace șah, atunci în loc să -i oferim O recompensă cândcâștigă jocul, a fost posibil Ar fi o recompensă să oferiți o recompensă cu una dintre cifrele adversarului pe care unagent poate rămâne adesea în aceeași zonă a mediului de ceva timp și, prin urmare, toată experiența sa pentru aceastăperioadă va fi un rezultat extrem de monoton Unele deplasări în algoritmul de învățare, el își poate ajusta politicapentru această aplicație și soluții în domeniul mediului, dar nu va fi îndeplinit bine după ce va părăsi această zonăpentru a rezolva această problemă, puteți utiliza memoria de memorie în schimb Aplicare în predarea doar cea mai mareparte a experienței directe, agentul va studia pe baza tamponului experienței sale trecute, recent și nu atât de recent(poate de aceea avem vise noaptea pentru a reproduce experiența acumulată pe zi și mai bine studiu În afara politicii,el învață valoarea politicii optime (că valoarea premiilor, ținând cont de rata de actualizare, care poate fi deașteptat pentru fiecare stat, dacă agentul acționează optim), în timp ce agentul urmează o altă politică cu Un bunexemplu de astfel de algoritm Q-Teaching, spre deosebire de acest algoritm din cadrul politicii (OP-Riisu) învațăvaloarea politicii pe care agentul o execută efectiv, inclusiv studiul și funcționarea soluției de exerciții și cautăJupyter în caiete, disponibile la la nivelul Adresa I a Anexei APLICE INSTOMENT ONE CONTROL Lista pentru proiectul deînvățare automată Această listă de control ajută la realizarea proiectelor de învățare automată există opt pașiprincipali pentru a stabili sarcina și a clarifica imaginea generală Obținerea datelor pentru a studia datele pentru aînțelege esența lor pregătind date cu scopul de a detecta mai bine acestea acestea minciuna Șabloanele algoritmilor deînvățare automată se bazează pe studiul multor modele diferite și compilând lista finală a celor mai bune dintre ele deconfigurare exactă și unirea lor în cea mai bună soluție la prezentarea, observația și sprijinul sistemului este destulde evident, tu Înghețați pentru a adapta această listă de control la nevoile existente, determinați obiectivul înentitățile de afaceri Cum va fi utilizată decizia dvs ? Cum arată soluțiile curente piese de bypass (dacă există)? Cumar trebui să formulați o sarcină (instruirea cu un profesor fără profesor, autonom dinamic Învățare etc )? Cum artrebui să măsurați performanța? Este convenită o măsură de performanță cu un preț de afaceri? Care va fi performanțaminimă necesară pentru a obține un preț de afaceri? Care sunt sarcinile comparabile? Puteți utiliza experiența sauinstrumentele? Este accesibil uman o experienta? Cum ați rezolva problema manual? Listă Ipotezele făcute de dvs (sau de alții), pe cât posibil, verificați presupunerea, notați cât mai multe acțiuni pentru aprimi cu ușurință lista de date noi de date necesare și a indica câte dintre ele Trebuie să găsiți și să documentațilocurile în care puteți obține datele, să aflați volumul spațiului care va lua datele, să citiți obligațiile legale și,dacă este necesar, să obțineți un permis, să obțineți drepturi de acces Creați spațiul de lucru (cu un stocareavolumului suficient), primiți date Într -un format care vă permite să manipulați cu ușurință datele (fără a schimbadatele în sine), asigurați -vă că informațiile confidențiale sunt șterse sau protejate (de exemplu, anonimizate), Set detestare, puneți -l deoparte și nu vă uitați niciodată (fără peeping pentru date!) Anexa B lista de control pentru notaproiectului de învățare automată pentru acești pași încercați să obțineți informații de la experții locali Creați ocopie Date pentru cercetare (dacă este necesar, realizând un eșantion pentru a obține dimensiunea dimensiunii), creațiun caiet Jupyter pentru a salva o înregistrare a cercetării datelor, studiați fiecare atribut și caracteristicile saledespre nume; O tip (categoric, întreg, cu un punct plutitor, limitat nelimitat, text, structurat etc ); Pe procentulvalorilor lipsă; La zgomotul și tipul de zgomot (stocastice, emisii, erori de rotunjire etc ); despre posibilelebeneficii pentru sarcină; Despre tipul de distribuție (gaussian, uniform, logaritmic etc ) Pentru sarcinile de învățarecu profesorul, identificați atributul țintă (atribute) vizualizați datele Explorați relația dintre atribute, gândiți-vă cum ați rezolva problema Identificați manual transformări promițătoare care ar putea dori să aplice datelesuplimentare care pot fi utile (vezi Secțiunea „Producția de date” mai devreme în aplicație) documentează tot ceea ceați recunoscut prin apendicele B Lista de control pentru nota de proiect de învățare a mașinilor pentru a lucra cu copiiale datelor (salvați setul de date inițiale inutile) Funcții de scriere pentru toate transformările de date pentru dupăcinci Motivele în acest sens pot pregăti cu ușurință datele data viitoare când obțineți date noi despre acest lucru,puteți aplica aceste transformări în proiectele viitoare pe punctul de a curăța și pregăti un set de test pentru acurăța și pregăti altele noi Probele de date după ce soluția începe să se extindă pentru a facilita interpretareaopțiunilor pregătitoare, deoarece hiperparametrele curăță datele privind emisiile corecte sau șterg (opțional) desprecompletarea valorilor absente (de exemplu, zero, mediu, median sau o altă valoare) sau aruncă Liniile lor (saucoloanele) selectează semnele (opționale) despre atributele de eliminare care nu poartă nicio informație utilă pentrusarcină, construiți semne în cazul în care este necesar să schițați semne continue despre semnele de împrăștiere încomponente (de exemplu, categoric, data și ora Și timp și timp și timp Lista de control pentru proiect Norocul strict,în cazul în care datele sunt uriașe, poate exista dorința de a alege seturile de predare de dimensiuni mai mici pentru aputea învăța multe modele diferite într -un moment rezonabil (trebuie să se țină seama că aceasta este amendată Prinmodele complexe, cum ar fi rețele neuronale mari sau păduri aleatorii) și din nou, încercați să automatizați pașiiindicați cât mai curând posibil, învățați multe modele create din diferite categorii (de exemplu, liniare, naiveBayesov, SVM, Forest Random, Neural rețea, etc ), folosind parametri standard, măsură și Comparați productivitatea loro cu fiecare model Aplicați verificarea de verificare încrucișată -în verificarea și calculați valoarea medie șiabaterea standard a măsurilor de performanță pentru blocuri analizează cele mai semnificative variabile pentru fiecarealgoritm analizează tipurile de erori făcute de modelele FR Ce date ar folosi o persoană pentru a evita aceste erori?Efectuați un ciclu rapid de alegere și proiectare a semnelor, efectuați una sau două iterații mai rapide ale celor cincietape precedenți fac lista finală a primelor trei până la cinci cele mai promițătoare modele, preferând modelele carefac diferite tipuri de erori Anexa B Lista de control pentru proiectul notelor de învățare automată pentru acest pas pecare doriți să îl utilizați ca Puteți mai multe date, în special cu abordarea sfârșitului setării exacte ca întotdeauna, automatizați tot ceea ce sepoate face Setările exacte ale hiperparametrelor folosind un test încrucișat de interpretare a transformărilor dvs dedate ca hiperparametre, mai ales atunci când nu sunteți sigur de ele (de exemplu, ce ar trebui să fie înlocuit cuvalorile absente - cu o valoare zero sau mediană? Sau Trebuie doar să aruncați linii?) O numai dacă numai valorilehiperparametrelor care sunt supuse cercetării sunt foarte puține, atunci acordați preferință unei căutări aleatoriiînainte de căutarea cu zăbrele atunci când antrenamentul are loc foarte mult timp timp, puteți prefera o abordare cuoptimizarea bayesiană (de exemplu, a priori folosind Gaussian, așa cum este descris în activitatea lui Jasper Smaw, HugoLaroshel și Ryana Adams) Metode de ansamblu Combinația dintre cele mai bune modele va funcționa adesea mai eficientdecât individual Modelele după ce a obținut încredere în ceea ce privește modelul final își măsoară performanța pe setulde testare, astfel încât Evaluarea erorii de generalizare nu ajustați modelul După măsurarea erorii de generalizare,pur și simplu veți începe să -l reîncărcați cu setul de testare a „Optimizarea practicilor Bayesiene a algoritmilor deînvățare automată” („Optimizarea practică a Bayesianului de învățare automată a algoritmilor de învățare automată”), Dinși Rushel și Adams Adams) Anexa B Lista de control pentru proiectul de învățare automată documentează tot ceea ce ațicreat o prezentare destul de bună despre a vă asigura că mai întâi clarificați imaginea de ansamblu, explicați de cedecizia dvs ajunge la un preț de afaceri nu uitați să reprezentați puncte interesante În acest sens, ați observatdespre ce funcționează și că nu există despre listarea presupunerilor și restricțiilor dvs asupra sistemului, astfelîncât principalele concluzii să fie transmise prin vizualizări atractive sau fraze simple pentru memorare (de exemplu,„Venitul median este o serie de numere Un preț pentru case ”) Pregătiți -vă soluția pentru plasare în mediul deproducție (conectați -vă la sursele de date de producție, scrieți teste modulare etc ) Scrieți codul de observațiepentru a verifica productivitatea reală a sistemului prin intervale regulate și trimiteți Semnalele de alarmă atuncicând se încadrează în scăderea lentă a productivității odată cu dezvoltarea acestor modele, predispuse la „descompunere”cu privire la măsurarea productivității poate necesita transportorul de evaluare umană (de exemplu, prin serviciul decrowdsourcing), de asemenea date de intrare (De exemplu, un senzor defect poate trimite valori arbitrare sau date deieșire ale unei alte comenzi pot deveni depășite) Acest lucru este deosebit de important pentru sistemele de învățaredinamică să vă prezinte modelele în mod regulat folosind date proaspete (automatizați tot ceea ce este posibil) Apendicele B Lista de control pentru proiectul de învățare automată Anexa la sarcina Dual SVM pentru a înțelege maiîntâi Este necesar să stăpânești metoda Ideea generală este transformarea scopului optimizării condiționale într -unobiectiv necondiționat prin mutarea restricțiilor în ( Functio bietive ) Să ne uităm la un exemplu simplu, să presupunemcă doriți să găsiți valorile și, care minimizează funcția (x, y) x + y în prezența zx + y + folosind metodamultiplicatorilor Lagrange, noi Începeți prin a -l determina pe cel nou Funcții numite (zngia) sau (ge functio g (x, y,a) -f (x, y) a (x + y + +) Fiecare restricție (în acest caz, doar una) este înmulțită cu o nouă variabilă numitămultiplicator Lagrana și este dedus din Obiectivul inițial, Joseph Louis Lagrange a arătat că dacă (x, y) este osoluție la problema optimizării condiționate, atunci trebuie să existe, astfel încât (x, y, a) este lagrange (un punctstaționar este un punct în care toți derivații privați sunt zero) Cu alte cuvinte, putem calcula derivatele private G(x, y, a) în relație și să găsim puncte în care toți derivații sunt zero și rezolvând problema optimizării condiționate(dacă sunt există) ar trebui să fie printre) Există astfel de puncte staționare private în acest exemplu Derivatelesunt aceleași - зсх -u- Când toate derivatele private sunt egale, descoperim că x pentru -zx l l o - zh, unde găsim cuușurință că x ^, in -^ -ia este singurul punct staționar și, din moment ce respectă restricția, trebuie să se decidăSarcina optimizării condiționate, cu toate acestea, această metodă se aplică numai restricțiilor sub formă de egalitatela fericire, în anumite condiții de regularitate (observate de țintele SVM), metoda poate fi, de asemenea, generalizatăpe, de exemplu, Zx + y +> pentru sarcina clasificării cu un decalaj rigid este dat în ecuația B, unde variabilele AB)se numesc multiplicatori (sh-kuhn-tu-tu) și ar trebui să fie mai mult sau egale cu zero m despre I m Ca și în cazulmetodei multiplicatorilor Lagrange, puteți Calculați derivatele private și găsiți puncte staționare dacă există o soluție, atunci va fi cu siguranță printrepunctele staționare (w, b, â, care satisfac restricțiile (concomitele concomitente) cu privire la problema x^ + b) >Pentru i l m, se prevede că sg b)> o pentru і tn sau с £ b) o, sau o restricție ar trebui să fie, care este păstrată deegalitatea de Hb) + B) o astfel de condiție se numește condiție (implementare SlackNet ) Aceasta implică faptul că fiecu £ B) O, fie cu un eșantion este la graniță (este un vector de sprijin), rețineți că condițiile CCP sunt condițiilenecesare pentru punctul staționar pentru a rezolva problema optimizării condiționale în anumite circumstanțe Deasemenea, condițiile suficiente sunt pentru fericire, sarcina de a optimiza SVM îndeplinește aceste condiții, astfelîncât orice punct staționar care îndeplinește condițiile CCP este garantat pentru a rezolva problema optimizăriicondiționate, putem calcula derivații privați ai lagranjianului generalizat în raport cu și C Folosind ecuația înaplicație în sarcina duală a svm vw ^(w, b, a) w £ t ^x ^i ^Ă? (yf, b, a) Oh, dacă suntem Vom include rezultateleobținute în definiția Lagranjianului generalizat, apoi unii membri vor dispărea, iar ecuația B, t t t ^ (w, a, a] - x £x ^ £! obiectivul acum Pentru a găsi vectorul A, care minimizează această funcție cu AB)> Pentru toate eșantioanele, oastfel de sarcină de optimizare condiționată este o sarcină dublă căutată după ce a găsit optimul A poate calcula w,folosind prima linie a The the the the the the the the the the the the the the the the the the the the the the the thethe the the the the the the the the the the the the the the the the the the the the ecuația în z astfel încât CalculațiB, puteți utiliza faptul că vectorul de asistență trebuie să furnizeze x^+ b) Prin urmare, dacă vectorul de asistențăeste un eșantion (t e a>), atunci poate fi utilizat pentru calculul B No Wt x^ \ subiecte Mai puțin, preferința esteadesea acordată calculului mediei pentru toți vectorii de asistență pentru a obține o valoare mai stabilă și mai exactă,așa cum se arată în ecuația din B ± J [(о `('') despre Anexa din Dualul Dual Sarcina SVM, aplicația este automată Diferențierea în această aplicație explică activitatea instrumentului de diferențiere automată TensorFlow și comparareacu alte soluții, presupunem că am determinat funcția (x, y) x y + y + și avem nevoie de ea derivate private și, deobicei, pentru a efectua gradient (sau un alt algoritm de optimizare), principalele opțiuni sunt diferențierea manuală,diferențierea simbolică, diferențierea numerică, diferențierea automată în modul direct și diferențierea automată înmodul invers pe care îl considerăm la rândul său, fiecare opțiune este prima abordare - Luați un creion și o foaie dehârtie și implicați manual cunoștințele noastre de instrumente derivate private doar pentru ceea ce este o anumităfuncție AI (X, Y) Sarcina nu este prea dificilă; Este necesar doar utilizarea următoarelor cinci reguli, derivatulconstantei este egal cu derivatul AH (unde - constantă) Derivatul derivatului derivatului x va fi derivatul cantitățiide funcții este egală cu suma derivatelor acestor funcții Derivatul funcțiilor este egal cu derivații săi, ținând contde aceste reguli, putem obține ecuația g a e>-, e> (?) dh dh dh dx eh + o + oh dh dh eh df e (^) du e du de + du + du -x + + o x + Această abordare poate deveni extrem de obositoare Pentru funcții mai complexe, creșterea riscului de aface o greșeală, vestea bună este că eliminarea ecuațiilor matematice pentru derivate private, așa cum se arată mai sus,poate fi automatizată printr -un proces numit diferențiere simbolică în orez G arată cât de simbolic Diferențiereafuncționează pentru o funcție mai simplă G (x, y) +HU Grafic pentru această funcție este dată în stânga dupădiferențierea simbolică, obținem un grafic în dreapta, care reprezintă un derivat privat al ^ +(xx +uh) u ( Un derivatprivat poate fi obținut relativ într -un mod similar) I Apendicele D Diferențiere Algoritmul începe cu captarea unuiderivat privat al nodurilor frunzelor, nodul constantei returnează constanta, t la derivatul constantului, nodul esteîntotdeauna variabila revine la constantă, deoarece^ și nodul variabila returnează constanta , Deoarece ~ (dacă am ficăutat relativ un derivat privat, atunci situația ar fi opusă) acum avem tot ce ai nevoie pentru a muta numărul la nodulde înmulțire din interiorul funcției, calculul ne spune că producția „D (și x ѵ) Lucrarea a două funcții și este G-X și+ ѵ X, prin urmare, putem construi o mare parte a coloanei din dreapta, reprezentând x + y, ne putem implica în cele dinurmă în nodul de adăugare Funcțiile au fost menționate anterior, derivatul cantității de funcții Este egal cu suma derivatelor acestor funcții În acest fel, trebuie doar să creăm un nod de adăugare și să -l conectămla părțile finite ale numărului, obținem producția privată adecvată de apă + (x x Aplicați mai multe Acțiuni decompensare banală pentru a scăpa de toate operațiunile excesive și pentru a obține un grafic mult mai mic, cu un singurUD-ed în acesta Cazul a fost destul de ușor obținut prin simplificare, dar pentru funcții mai complexe, diferențiereasimbolică poate oferi coloane uriașe care sunt dificil de simplificat și să conducă la performanțe suboptimale, dar celmai important este că diferențierea simbolică nu poate funcționa cu funcții definite Cu ajutorul codului arbitrar-exemplu, cu următoarea funcție, care a fost discutată în capitolul Funch în intervalul meu * ( +) + * (-) cea mai simplăsoluție prevede calculul valorilor aproximative ale derivatelor din Un mod numeric, amintiți-vă că derivatul aplicării H'(x) a G Diferențierea automată a funcției I (x) la punctul X este o pantă a funcției în acest moment sau mai exact-ecuația g (x) ( x) x ~ x h (xo + £) -h (xo) g (xn) lim x-> x (lim £-> aproximativ, prin urmare, pentru calculareaderivatului privat (x, y) în raport cu punctul x- și y, calculăm pur și simplu ^ + c)- și împărțim rezultatul prin,folosind o valoare foarte mică, aceasta este ceea ce face mai jos Cod ** * "-ț" I Suntem obligați să apelăm cel puțintrei ori (în codul anterior îl numim de patru ori, dar codul ar putea fi optimizat) dacă ar exista parametri, atunci artrebui să apelăm cel puțin atunci când lucrăm cu metoda rețelelor neuronale mari Diferențierea numerică devine preaineficientă, cu toate acestea, diferențierea numerică este atât de ușor de implementat încât devine un instrumentexcelent pentru verificarea corecției I Apendice G Diferențierea automată a implementării altor metode, de exemplu, dacăcontrazice derivatul funcției obținute manual Apoi, funcția conține probabil o eroare de diferențiere automată -aceasta nu este nici o diferențiere numerică, nici o diferențiere simbolică, dar, într -un sens, se bazeazădiferențierea automată a creierului lor preferat, care (ciudat, dar, atractiv) sunt numerele sub formă de formă A +,unde și materialele numere, și un număr infinit de mic, astfel încât £ o (dar £ f) vă puteți imagina un număr dual + £ca ceva similar ON - Cu un număr infinit de zerouri (desigur, această simplificare este destinată doar pentru dvs săsurprindeți ideea care sunt numerele duale), numărul dual este prezentat în memoria unei perechi de valori cu unplutitor Punct, să zicem, + £ Prezentat de o pereche de numere duale pot fi rezumate, înmulțite etc , așa cum s -ademonstrat în ecuația g z x (y + b £) ha + hi (a + ье) + (s + de) (a + c) + (b + d) e (a + be) x (c + de) as + (ad +bc) e + (bd) e as + (ad + bc) e cel mai important, puteți arăta că h {a + be) h (a) + b x h '(a) e, prin urmare,calculul H (A + E) dă imediat) iar derivatul lui H '(a) din orezul lui G poate arată cum diferențierea automată înmodul direct calculează derivatul privat F (x, y) în raport cu punctul X și U trebuie doar să calculeze ( + £,);Rezultatul va fi un număr dual, a cărui componentă este egală Și al doilea- ^- pentru a calcula- de data aceasta, czu +£ trebuie să trecem din nou prin grafic, dar pe aplicația G diferențiere automată + £ a + fi cu £ aproximativ estestocat sub forma unei perechi Numere cu un punct flotant (A, B), de exemplu, și nu ca un număr dual în acest fel,diferențierea automată în modul direct al diferențierii mult mai precisă, dar suferă de același dezavantaj grav, dacăexistă parametri , atunci pentru Calculele tuturor instrumentelor derivate private ar trebui să parcurgă graficul pringrafic, pe care îl arată genial în mod genial, în modul invers, poate calcula toate derivatele private în doar douătreceri prin diferențierea automată a graficului în modul invers - Această decizie, implementată de bibliotecaTensorFlow, trece mai întâi prin grafic în direcția directă (cea de la intrări la ieșiri) pentru a calcula valoareafiecărui nod, apoi efectuează a doua trecere, dar în direcția opusă (cea din ieșirile la intrări) pentru a calcula toțiderivații privați din Fig Al doilea pasaj a fost prezentat în timpul primului pasaj, valorile tuturor nodurilor au fostcalculate, Pornind SCU, aceste valori sunt afișate în colțul din dreapta jos al fiecărui nod (de exemplu, xxx) de dragul Claritatea nodurilor este marcată din nodul de ieșire este POP I Apendicele G Diferențierea automată Ideea este să sedeplaseze treptat în coloană, calculând derivatul privat al lui F (x, y) în raport cu fiecare unitate secvențială, pânăcând acestea sunt Nodurile de diferențiere automată pentru aceasta sunt atinse în modul invers sunt bazate într -o maremăsură pe eh eh, eh z e, și este nodul de ieșire și, și este de la sine înțeles că continuăm să mergem în jos Count Kși cum se schimbă când, când, se schimbă ich? Răspunsul va fi că știm deja că -h -ei ei ei ei, prin urmare, avem nevoiedoar de faptul că dă pur și simplu suma și + Și, ei DF, găsim asta și, prin urmare, x Apendicele G Diferențiereaautomată, acum putem merge la nod și cât se schimbă atunci când o face și? Răspunsul va fi EI ei, x De când P n p , Neconstatăm că P, prin urmare, procesul continuă până când ajungem în partea inferioară a graficului până în acest momentam calculat toți derivații privați (x, y) în SĂ df Punctul X IU În exemplul înconjurat pe care l -am găsit și aratăcorect! Diferențierea automată în modul invers este o tehnică foarte puternică și precisă, mai ales atunci când existămulte intrări și puține ieșiri, pentru calcularea derivatelor private ale tuturor rezultatelor În ceea ce priveștetoate intrările, necesită un singur pasaj direct, plus un pasaj invers la ieșire este și mai important, diferențiereaautomată în modul invers poate trata funcțiile determinate în codul arbitrar, este capabil să proceseze funcțiile Carenu sunt complet diferențiate, cu condiția ca calculul derivatelor private să fie solicitat în punctele în care funcțiilesunt diferențiate dacă ați implementat un nou tip de operațiune în TensorFlow și doriți să o faceți compatibilă cudiferențierea automată, atunci va trebui să furnizați o funcție Care construiește un subgracker pentru a -și calculaderivatele private în ceea ce privește intrările, de exemplu, permiteți -vă să implementați o funcție care calculeazăpătratul intrării dvs , (x) x În acest caz, trebuie să furnizați funcția derivată corespunzătoare '(x) x Rețineți căAceastă funcție este deloc Nu calculează rezultatul numeric, dar, în schimb, construiește o săpătură care va fi (maitârziu) pentru a calcula rezultatul este foarte util, deoarece face posibilă calcularea gradienților din gradienți(pentru a calcula derivatele de la a doua sau chiar a comenzilor mai mari de comenzi superioare) Apendice A automat Diferențierea apendicelui Alte arhitecturi populare ale rețelelor neuronale artificiale din această aplicație vomprezenta o scurtă privire de ansamblu asupra mai multor arhitecturi importante din punct de vedere istoric ale rețelelorneuronale, care sunt utilizate astăzi mult mai puțin decât perseptrons cu mai multe niveluri (capitolul), rețeleneuronale aderente (capitolul ), rețelele neuronale de recrutare (capitolul) sau codificatorii auto (capitolul) suntadesea menționate în literatura de specialitate, iar unele dintre ele sunt încă utilizate în multe aplicații și, prinurmare, este util să cunoaștem astfel de arhitecturi, cu excepția acestui fapt, vom discuta ( - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - , ceea ce reflecta starea actuală de pregătire profundăînainte de început - a -a, ei sunt în continuare subiectul unor studii foarte active, așa că în viitorul apropiat s-ar putea să se întoarcă cu o răzbunare pentru prima dată au fost introduse de puțin în an și apoi popularizat JobfieldÎn an, sunt rețele, mai întâi înveți rețeaua la unele probe, după care, la obținerea unui nou eșantion, ea (trebuie săspere) va da cel mai mult Eșantionul ei recunoscut strâns a făcut ca aceste rețele să fie utile în special pentru arecunoaște imaginile înainte În prima dată, alte abordări ale primului lucru pe care ești instruit de rețea, arătându-i exemple de imagini ale imaginii (fiecare pixel binar este comparat cu un neuron), apoi demonstrează -i o nouă imaginea imaginii și după mai multe Iterații Rețeaua oferă cea mai apropiată imagine recunoscută Sunt coloane de rasă completă(orez d), că fiecare neuron este asociat cu toți ceilalți neuroni, acordă atenție faptului că imaginile au x pixeli,astfel încât rețeaua neuronală din stânga ar trebui să conțină neuroni (și conexiuni), dar pentru Claritatea vizualăeste afișată O imagine stabilă de rețea mult mai mică a imaginii de intrare a algoritmului de învățare funcționeazăprin utilizarea regulii HEBB pentru fiecare imagine de antrenament, greutatea comunicării dintre doi neuroni crește dacăpixelii corespunzători sunt ambii activați sau ambii sunt opriți, dar scade atunci când un pixel Inclus, iar celălalteste oprit pentru a arăta rețelele noii imagini, pur și simplu activați neuronii care corespund pixelilor activi, apoirețeaua calculează ieșirea fiecărui neuron, ceea ce vă oferă Noua imagine, apoi luați această nouă imagine și repetați întregul proces După ceva timp, rețeaua va ajunge la o starestabilă, de obicei corespunde imaginii de instruire, care seamănă cel mai mult cu imaginea de intrare cu rețeleleHopfield asociate energiei SO -numite pe fiecare iterație scăzută și, prin urmare, rețeaua este garantată să sestabilizeze în scădere -energie Starea algoritmului de învățare ajustează greutățile într -un mod care să reducănivelul energetic al imaginilor de antrenament, astfel încât rețeaua este probabil să se stabilizeze într -una dintreaceste configurații cu energie scăzută I Apendicele D Alte arhitecturi populare ale rețelelor neuronale artificiale Dinpăcate, imagini individuale care pe care le -a făcut imagini individuale care pe care le au fost absenți la student Setul se încheie, de asemenea, cu energie scăzută, astfel încât rețeaua se stabilizează uneori într -o configurație carenu a fost studiată de astfel de imagini numite un alt dezavantaj serios al rețelelor Hopfield în faptul că nu sunt înspecial scalate - capacitatea lor este memoria lor Aproximativ din numărul de neuroni, de exemplu, pentru a clasificaimaginile X, veți avea nevoie de o rețea Hopfield, care are un neuron și o bibliotecă completă, rețeaua finală va puteaafla prin diferite imagini De la) au fost inventați prea mulți parametri pentru o memorie atât de mică În anul,Jeffrey Khinton și Terrence Seanovsky, precum și rețelele Hopfield, acestea sunt rețele neuronale artificiale de legarecompletă, dar se bazează în loc să folosească o funcție de pas determinată atunci când rezolvă ce valoare, aceștineuroni sunt dați cu o anumită probabilitate și În caz contrar, funcția probabilistică folosită de astfel de rețeleANN se bazează pe distribuția Bolzmann (utilizat în mecanica statistică), de aceea numele ecuației D dă probabilitateaca neuronul să emită P ^(următorul pas) J T SJ - condiție -Neuron (OR) -Greutatea conexiunii dintre neuronii 'și -Tnotează că W BT este un membru al deplasării -a neuronului, putem realiza acest membru adăugând un neuron neuron neuronla rețeaua de neuroni în Apendicele de rețea D Alte arhitecturi populare ale rețelelor neuronale artificiale - un numărnumit rețea; Cu cât temperatura este mai mare, cu atât va fi mai accidentală producția (cu atât este mai aproapeprobabilitatea de a-l-a fost funcția logistică a neuronilor din mașinile Bolzman sunt împărțite în două grupuri și (orezd) toți neuronii funcționează în aceeași metodă sedată, dar Elementele vizibile sunt cele care primesc intrările și dela care ieșirile sunt citite datorită naturii sale stocastice, mașina Bolzman nu se stabilizează niciodată într -oconfigurație fixă ​​și, în schimb, va continua să schimbe între setul de configurații dacă a funcționat pentru o Multtimp, atunci probabilitatea de a observa o configurație specifică va fi o singură funcție de greutate și membriideplasării, și nu configurația inițială (în același mod, după suficient nu depinde de starea inițială) atunci cândrețeaua ajunge la această stare în care configurația inițială este „uitată”, ei spun că este în timp ce configurația eicontinuă să se schimbe tot timpul Parametri de rețea Libia În mod corespunzător, permițând rețelei să obținăechilibrul termic și să -și respecte starea, putem simula o gamă largă de distribuții de probabilitate Aceasta senumește I Apendice D Alte arhitecturi populare ale rețelelor neuronale artificiale care învață mașina Boltzman înseamnăcăutarea parametrilor care vor fi Permiteți rețeaua De exemplu, dacă există trei neuroni vizibili, iar setul deantrenament conține tripluri, tripluri) și tripluri), atunci după antrenamentul mașinii Bolzman, ați putea să outilizați pentru a genera tripluri binare aleatorii Cu aproximativ aceeași distribuție a probabilităților, să zicem, înjurul timpului, ar da trei), un astfel de model generator poate fi utilizat în diferite moduri, de exemplu, dacă rețeauastudiază în imagini și îl furnizați cu un incomplet incomplet sau imagine certată, apoi automat Îl „restabilește” într-un mod rezonabil, puteți utiliza, de asemenea, modelul generator pentru clasificare, trebuie doar să adăugați câțivaneuroni vizibili pentru a codifica clasa de antrenament (de exemplu, adăugați neuroni vizibili și porniți doar alcincilea neuron atunci când imaginea de antrenament reprezintă cei cinci ) apoi Rețeaua va include automat neuronivizibili adecvați, ceea ce indică clasa acestei imagini (să zicem, va activa cel de -al cincilea neuron vizibil, dacăimaginea reprezintă cele cinci), din păcate, tehnicile eficiente de predare a mașinilor Bolzman nu există, totuși,destul de mult, destul de mult au fost eficiente Algoritmi pentru învățare ( - Mașină limitată Boltzmann este doar o mașină Bolzmann în care nu există conexiuni între elementele vizibile sau între elemente ascunse,dar există doar conexiuni între elemente vizibile și ascunse, de exemplu, RIS RIS este arătat cu trei elemente vizibileși patru ascunse în anul Miguel Carrera - Perpinyan și Jeffrey Hinton au oferit un algoritm de învățare foarte eficient,numit! Așa funcționează pentru fiecare eșantion de învățare x Algoritmul începe cu asta Ceea ce își transferă rețeleleprin stabilirea stării elementelor vizibile în x x x x „învățarea de divergență contrastivă op” („la formare printr-oabatere comparativă”), M Carrera-Perpinyan și D Hinton OD) Anexa D și ascuns Stratul vizibil I calculez apoi stareaelementelor ascunse aplicând ecuația statistică descrisă anterior (vezi ecuația d) Aceasta dă vectorul ascuns h (unde і( -starea elementului) este calculată în continuare starea elementelor vizibile Folosind aceeași ecuație statistică,aceasta oferă vectorului x ', apoi, din nou, se calculează starea elementelor ascunse, ceea ce oferă vectorul H' acumputeți actualiza greutatea fiecărei conexiuni aplicând regula din ecuația d, unde- viteza de antrenament este + T] (xhr x 'hz j Un avantaj uriaș, acest algoritm constă în faptul că nu necesită așteptare până când rețeaua va intra înechilibru termic, doar merge înainte, înapoi, din nou și toată această caracteristică face acest algoritm incomparabilmai eficient decât algoritmii anteriori și a fost una dintre principalele părți ale componentelor din primul succes alînvățării profunde bazate pe mașini multistrat RBM, mai multe straturi de mașini RBM pot fi puse unul pe celălalt; HIDElementele mașinii RBM ale primului Straturile servesc ca elemente vizibile pentru RBM al celui de -al doilea strat,etc O astfel de grămadă de mașini RBM se numește (I Appla D Alte arhitecturi populare ale rețelelor neuronaleartificiale și Tya Ti, unul dintre studenții lui Jeffrey Hinton, au aflat experimental experimental Acea Rețeaua DBNpoate fi învățată folosind -o folosind un algoritm de abatere comparativă la un strat la un moment dat, pornind de lacele mai mici straturi și treptat treptat la straturile superioare, a rezultat un articol revoluționar, care a dat unimpuls la începutul adâncului profund Instruirea tsunamiului în an, cum ar fi vehiculele RBM DBN învață să reproducădistribuția probabilităților intrărilor lor, fără nici o supraveghere, cu toate acestea, acestea sunt mult mai bune dinacelași motiv pentru care rețelele neuronale profunde sunt mai puternice decât datele reale superficiale Adeseasistematizate din Șabloanele ierarhice și rețelele DBN își extrag straturile inferioare de semne cu nivel scăzut îndatele de intrare, în timp ce straturile superioare recunosc semne cu nivel înalt, cum ar fi mașinile RBM , Rețelele DBNsunt în esență instruite fără Profesorii, dar pot fi învățați și cu profesorul, adăugând mai multe elemente vizibilepentru a reprezenta etichetele În plus, proprietatea remarcabilă a DBN Networks este că sunt capabili să studieze într-o manieră parțială în figura D prezintă o astfel de rețea DBN Configurat pentru o instruire parțială „Un algoritm deînvățare rapidă pentru credințe profunde” („Algoritmul de învățare rapidă pentru rețele de încredere profundă”), DHinton și Tyu OD) Aplicație D Alte arhitectură populară a rețelelor neuronale artificiale primele studii RBM fără Eaînvață semnele cu nivel scăzut în datele de instruire, apoi mașina RBM învață folosind elemente ascunse ale mașinii RBMca intrări, din nou, fără profesor, va învăța semne cu nivel înalt (rețineți că elementele ascunse ale mașinii RBMinclud numai includ doar Trei Elementele sunt extrem de extreme, dar nu elemente bazate pe metodă), un număr mai marede mașini RBM ar putea fi puse în acest fel, dar ideea ar trebui să fie încă o pregătire clară complet fără un profesor,mașina RBM învață să folosească AS Intrările elementelor ascunse ale mașinii RBM, precum și elementele vizibilesuplimentare utilizate pentru a reprezenta mărci vizate (de exemplu, un vector într -un cod unitar care reprezintă oclasă de eșantion), ea învață să asocieze caracteristici cu nivel înalt cu mărci de predare Acesta este un pas deînvățare cu profesorul La sfârșitul antrenamentului, la transmiterea unui nou eșantion la mașina RBM, semnalul va fidistribuit la mașina RBM, apoi în partea superioară a mașinii RBM și apoi înapoi la elementele metroului; Trebuie săsperăm că eticheta corespunzătoare va fi afișată ca aceasta este rețeaua DBN poate fi utilizat pentru a clasifica unmare avantaj al unei astfel de învățări parțiale, este faptul că o mulțime de date de formare obosită nu sunt necesaredacă mașinile RBM instruite fără profesor sunt efectuate destul de bine, atunci vor fi necesare doar un număr mic destudenți marcați probe pentru o clasă într -un mod similar, copilul învață să identifice Articole fără supraveghere, așa că atunci când indicați un scaun și spuneți „scaun”, copilul este capabil să asociezeindependent cuvântul „scaun” cu o clasă de obiecte pe care a învățat deja să le identifice că nu aveți nevoie indicațifiecare scaun individual și spuneți „scaun”; Va fi suficient doar câteva exemple (este suficient pentru copil să fiesigur că vă referiți cu adevărat la un scaun și nu la culoarea sa sau la una dintre părțile scaunului) Este completsurprinzător, rețelele DBN pot funcționa și în direcția opusă dacă activați unul dintre elementele Meto -toe, semnalulse va răspândi până la elementele ascunse ale mașinii RBM, apoi până la mașina RBM și apoi la mașinărie RBM, iar nouleșantion va fi emis de elementele vizibile ale mașinii RBM, acest nou eșantion va arăta de obicei ca o clasă obișnuită,I Apendicele D Alte arhitecturi populare ale rețelelor neuronale artificiale ale căror metode -bazate Capacitatearețelelor DBN are, de fapt, o putere mare, de exemplu, a fost utilizată pentru a genera automat inscripții pentruimagini și, dimpotrivă, prima rețea DBN studiată (fără supraveghere) pentru a afla semnele din imagini și din imagini șidin imagini A doua rețea DBN studiată (din nou fără Supraveghere) pentru a afla semne în seturile inscripții (deexemplu, inscripția „mașină” este adesea însoțită de inscripția „mașină”) După aceea, mașina RBM a fost așezată deasupraambelor DBN rețele, care au studiat folosind un set de imagini împreună cu inscripțiile lor; Ea a învățat să asociezesemne de nivel ridicat Imagini cu semne la nivel înalt în inscripții, apoi în cazul transmiterii unei rețele DBN,funcționând cu imagini, o imagine a unei mașini, semnalul a fost distribuit prin rețea până la nivelul superior RBM șiînapoi până la partea inferioară a rețelei DBN, care este responsabilă Inscripțiile, ca urmare a cărei inscripția afost dată din cauza naturii stocastice a mașinilor RBM și a rețelelor DBN au continuat să se schimbe la întâmplare, darde obicei s -a apropiat de imagine dacă generați câteva sute de inscripții, atunci cele mai des generate inscripții, celmai probabil Imaginile vor fi complet diferite de toate celelalte tipuri de rețele neuronale, care au fost discutatepână acum, sunt utilizate la crearea unui număr scăzut de măsurători pentru un set de date care are un număr mare demăsurători, în mare parte în scopuri Vizualizarea, gruparea sau clasificarea neuronilor sunt distribuite în funcție dehartă (de regulă, două dimensiuni pentru vizualizare, dar oricare dintre cantitatea dorită de măsurători poate exista),așa cum se arată în orez d Fiecare neuron are o legătură echilibrată cu fiecare intrare (doar două intrări suntprezentate în diagramă, dar de obicei, dar de obicei numărul lor foarte mare, deoarece întregul sens al cardurilor SOMeste să scadă dimensiunea) După ce rețeaua este instruită, poate transmite un nou eșantion și acest lucru activează Unsingur neuron (adică un punct pe hartă) Neuronul, al cărui vector în greutate este cel mai apropiat de vectorul deintrare, sunt detalii suplimentare și o privire demonstrativă în videoclipul lui Jerri Hinton Anexa D Alte arhitecturipopulare ale rețelelor neuronale artificiale în cazul general, eșantioane care sunt apropiate reciproc în intrareainițială Spațiu, neuronii situați în apropiere pe hartă vor face ca o astfel de proprietate a cardurilor SOM să le facăconvenabile pentru vizualizare (în special, puteți identifica cu ușurință clustere pe hartă), dar și pentru aplicațiisimilare cu recunoașterea vorbirii, de exemplu, dacă fiecare Eșantionul reprezintă O înregistrare audio cu pronunțiaunui sunet vocal de către o persoană, apoi pronunția distinctivă a sunetului vocal „A” va activa neuronii în aceeașizonă a hărții, în timp ce probe cu pronunția sunetului vocale „E ”Va activa neuronii într -o altă zonă Iar suneteleintermediare vor duce de obicei la activarea neuronilor intermediari pe hartă O diferență importantă față de altetehnici de scădere a dimensiunii care au fost discutate în capitol se datorează faptului că toate eșantioanele suntafișate la un număr discret de puncte din spațiu cu scăzut Numărul de măsurători (un punct pe neuron) atunci cândexistă foarte puțini neuroni, este mai bine să descrieți o astfel de tehnică precum gruparea și nu o scădere adimensiunii algoritmului de învățare, funcționează fără profesor, forțând toți neuronii Pentru a concura unul cucelălalt, mai întâi toate greutățile sunt inițializate Aleatoriu, atunci eșantionul de antrenament este selectataccidental și rețelele sunt transmise de toți neuronii pentru a calcula distanța dintre vectorul său de greutate șivectorul de intrare (care este complet diferit de aplicația artificială și alte arhitecturi populare ale rețelelorneuronale artificiale de neuroni cu care Încă ne -am ocupat) neuronului) din) cele mai mici câștiguri la distanțămăsurate, iar vectorul său de greutate este ajustat pentru a deveni și puțin mai aproape de vectorul de intrare, ceea cecrește Probabilitatea de a câștiga acest neuron al competițiilor viitoare pentru alte intrări similare De asemenea, implicăneuronii vecini, care își actualizează, de asemenea, vectorul de greutate pentru a se apropia ușor de vectorul deintrare (dar nu își actualizează greutățile la fel de mult ca neuronul care a câștigat), apoi algoritmul alege un alteșantion de antrenament Și repetă procesul, din nou și din nou, de regulă, algoritmul face treptat neuronii dinapropiere specializate pe intrări similare în care vă puteți imagina o clasă de copii mici cu aproximativ aceleașiabilități, astfel încât un copil să se arate puțin mai bine Baschetul îl motivează să se antreneze mai mult, mai alescu prietenii lor, după un timp, un grup de prieteni devine atât de bun în baschet, încât alți copii nu pot concura cuei, dar situația este destul de normală, deoarece alți copii sunt specializați în alții Obiectele de -a lungul timpuluivor fi umplute cu mici grupuri specializate Anexa D Alte arhitecturi populare ale preciziei rețelelor neuronaleartificiale; Acțiune, funcție de activare, Adaboost, Adagrad ,; Adam (Estimarea momentului adaptativ), AdamOptimization, Rata de învățare adaptivă, agent, Alexnet ,; Anaconda, anomalie Detecție, API Scikit-Learn, TF-Slim,Apriori, Zona de sub curbă (ASC), Rețeaua neuronală artificială (ANN), neuron artificial, învățarea regulilor deasociere; Rețea de memorie asociativă, Autodiff, AutoenCoder, Diferențierea automată (Autodiff), Strat de combinaremedie, Axon, Backpropropping Throuch Time (BPTT), Bagggh Time (BPTT), Bagging Tiggh Batch GD (BGD), coborâreagradientului de lot, normalizarea lotului (BN), ecuația de optimitate a Bellman, replicarea între grafică, prejudecata,neurona prejudecată, termenul de prejudecăți, clasificatorul binar, rețelele neuronale biologice (BNN), Blender, MachineBoltzmann, Boosting, Agregarea de bootstrap, bootstraping, strat de blocaj, clasic și Arbore de regresie (CART),învățare automată, cluster, codare, valoare separată de virgulă (CSV), slăbiciune complementară, complexitate de calcul,matrice de confuzie, conexism, funcție continuă, autoecon , Strat convoluțional, rețea neuronală convoluțională (CNN),kernel de convoluție, cost Funcție, problemă de atribuire a creditului, entropie încrucișată, validare încrucișată,CUDA (Arhitectură de dispozitiv unificată de calcul), CUDNN (CUDA Deep Neural Network), Blestem of Dimensionalitatea,Mining Data, Date Paralelism, Datasets, Data Swooping Biasy, rontom, Decizia de decizie, pragul deciziei, arborele dedecizie Decodificator, strat deconvoluțional, profund autoencoder, net de credință profundă (DBN) ,; Rețeauaneuronală profundă (DNN), Learning Q, Deep Q-Network (DQN) ,; Dendrita, stratul de concare de adâncime, raza deadâncime, stratul convoluțional de adâncime, dispozitivul, rata de dilatare, rata de actualizare, dropconnect , Renunța,; Rata abandonului, dualitatea, problema dublă, reluarea morții, oprirea timpurie, eclat, încorporarea;Encoder, final de secvență (EOS), funcție energetică, învățare ansamblu, metodă de ansamblu, episod, epocă, constrângerea egalității, estimator, fișier de evenimente, exclusiv sau (XOR), maximizare a așteptărilor, a explicat variația Raport, grad de explodare, funcție de explorare, unitate liniară expoponentă (ELU), ansamblu de copaci extrem derandomizați, fals posita (FPR), Introducerea caracteristicilor (FPR) Harta caracteristicilor, scalareacaracteristicilor, selecția caracteristicilor, spațiul de caracteristici, rețeaua neuronală de alimentare (FNN), FIFO (First-in First-Out), Filtru, Funcție de fitness, Fold, Urmați liderul regularizat (FTRL), Forged Gate, Autodiff înmodul înainte, cadru, activarea funcției, softmax, controler de poartă, unitate recurentă închisă (GRU), Gaussian RBFKernel, eroare de generalizare, generalizată Lagrangian, Rețeaua adversă de generație (GAN), generează model, generativ Rețea, algoritm genetic, Github, Google Remote Procedure CAII (GRPC), GoogleNet ,; Gradient Ascent, Gradient BoostedRegression Tree (GBRT), stimularea gradientului, tăierea gradientului, descendența gradientului (GD), предnice ыйуазатель Gradient Arbore Boosting, Gradient Vector, GraphViz, căutarea rețelei, clasificarea marjei dure , Clasificatorde vot greu, medie armonică, funcție de pas mai mare, învățare hebbiană, regula Hebbs, Hessian, strat ascuns, analiză aclusterului ierarhic (HCA), pierderi de balamale, muncă netă de hopfield, ipoteză, stimulare a ipotezelor, impuritate,modul de incepție, învățare incrementală, incremental RSA (IPCA), constrângere a inegalității, inferență , Replicare îngrafic, neuron de intrare, termen de interceptare, schimb de covariate de internet, pool de fir inter-op, pool de firintra-op, izomap, jacobian, job, jupyter ,; Karush-Kuhn-Tucker (KKT), Keras, Kernel ,; Kernel PCA (KPCA) ,;Kernel Trick, K-Fold Cross-Validation, K-Means K-Neared Neighbors, Kullback-LEIBLER DIVERGENCE, LABEI, Funcția Lagrange, metoda multiplicatorilor Lagrange, Lagrangian, Landmark, Clasificare a marjei mari, regresie Lasso,pierdere latentă, spațiu latent, numere de drepturi, reluare, curbă de învățare,; Rata de învățare; Programul deînvățare, Distanța Lenet-, Levenshtein , LIBLINEAR, LIBSVM, Analiza discriminantă liniară (LDA), regresie liniară,model de regresie liniară, unitate de prag liniar (LTU), Lipschitz Continuous, Local-Linear Embding (LLE),; Normalizarearăspunsului local (LRN), regresie logistică, logistică,; Logit, regresie de logit, pierdere de jurnal; Memorie pe termenscurt (Lstm), presupunere multiplă, multiplă, ipoteză multiple, пед sunteți у уыйазатель multiple,; Funcția de mapare,MapReduce, Procesul de decizie Markov (MDP),; Mașter, serviciu mașter, matplotlib,; Învățare maximă a marjei, stratde combinare maximă, eroare absolută medie (MAE), medie pătrată Eroare (MSE), celulă de memorie,; Mercers Theorem, MetaLearner, mini-lot, mini-lot-lot descendent,; Min-Max Scaling, MNIST (Institutul Național de Standarde și Tehnologiemixtă), Model Paralelism, Grădina Zoologică Model, Momentum, Optimizare a Momentumului, Optimizator Momentum, MomentumVector, Monte Carlo Tree Căutare, clasificator multiclasă, scalare multidimensională (MDS), clasificare multilabel,perceptron cu mai multe straturi (MLP),; Clasificator multinomial, regresie logistică multinomială, clasificaremultioutput, regresie multivariată, domeniu de aplicare a numelui, procesare a limbajului natural (NLP), clasa negativă,Neocognitron, gradient accelerat Nesterov (NAG),; Rețeaua neuronală, nr Freelunch (NFL), reducerea dimensionalitățiineliniare (NLDR), model nonparametric, prejudecăți non-răspuns, ecuație normală, normalizare, expocant normalizat,complet NP, nulhipoteză, diferențiere numerică, numpy,; ; NVIDIA CUDA, NVIDIA CUDNN, funcție obiectivă,observație, învățare offline, codificare off-politic, unu-fierbinte, One-versus-All (OVA), One-Versus-One (OVO), OpenAIGym, Optical Personaj Recunoaștere (OCR), valoare optimă a stării, în afara punții (OOB), învățare în afara core, înafara acesteia Eroare de eșantion, poartă de ieșire, strat de ieșire, autocomplete autocoder, suprafitting, pandas,; ;; Parametric scurgeri relu (prelu), model parametric, parțial Derivativ, lipire, conexiune peephole, percentilă,perceptron, пед sunteți у уазатель perceptron Theorem Convergence, nod de loc, politică, gradient de politică (pg),;Regresie polinomială; Modelul de regresie polinomială, colectarea nucleului, stratul de combinare, clasa pozitivă,precizia, curba de reacție de precizie (PR), predictor,; Pre-imagine, Primai Problemă, analiza componentelor principale(PCA),; Componentă principală (PC), producător, proiecție, protocol BUF FER, Q-Learning, Programare quadratică (qp),cuantificare, quartile, queriesper secundă (qps), q-valoare, iterație de valoare Q, funcție de bază radială (RBF),Pădure aleatorie; Scurgere randomizată REU (RRELU), PCA randomizată, căutare randomizată, metodă de patch -urialeatorii, metoda subspacelor aleatorii, rechemarea, caracteristica de funcționare a receptorului (ROC), rețeaua derecunoaștere, reconstrucția, eroarea de reconstrucție, unitatea liniară rectificată (REU),; Rețea neuronală recurentă(RNN), neuron recurent, regresie liniară de regresie, regresie logistică Regularizare, termen de regularizare, învățarede consolidare (RL),; Eroare reziduală, învățare reziduală, rețea reziduală (RESNET), unitate reziduală, RESNET,;ResNet-, Resource Container, Restricted Boltzmann Machine (RBM),; Autodiff în modul invers, recompensă, rmsprop,;Root mediu pătrat (RMSE), prejudecăți de eșantionare, zgomot de eșantionare, flux de scikit (skflow), scikit-learn,; ;; ; ; ; ; ; средсnal перекрестной пoроверки Scikit-Learn, SCIPY, MAP deautoorganizare (SOM), învățare semisupervizată, sensibilitate; Strat convoluțional separat, secvență, sesiune, conexiunerapidă, contracție, semnal, funcție de semn, бble пoредutarep Variabilă slabă, clasificare a marjei moi, S a funcțieiTMAX, regresie softmax,; Votare moale, replică de rezervă; Sparsitate, pierderi de sparsitate, specificitate, modelspurios, autoecontate stivuite, stivuite autocoder denoing, stivuire; Modelarea aditivă în scenă folosind un exponent demai multe clase (SAMME), gradient stale, coeficient de corelație standard, standard Abatere, standardizare, valoare deacțiune de stat, punct staționar, mod statistic, statlib, funcție de pas, GD medie stocastică, GD stocastic, stimulare agradientului stocastic, descendență gradient stochastic (SGD),; Neuron stocastic, straturi, eșantionare stratificată,pas, kernel cu coarde, vector subgradient, rezumat, vector de sprijin, suport Vector Machine (SVM),; ROII elvețian,diferențiere simbolică; Sinapsă, coadă grea, sarcină, încorporare stocastică a vecinului stocastic (T-SNE),;Telodendria, diferența temporală (TD), Tensor, Tensorboard, ; Tensorflow, SM Library, TensorFlow TensorFlow Serving, Tensor Processing Unit (TPU) Set de testare, învață ,;TFLEARN, TF-SLIM, echilibru termic, serii de timp, pas de timp, jeton, coadă de jetoane, toleranță, date de instruire,eșantion de instruire, set de instruire; Învățarea transferului, transformatorul, rata negativă adevărată (TNR), ratapozitivă adevărată (TPR), adevărată pozitivă (TP), subcompletă, subfitting, regresie univariată, pretrainingnesupravegheat, eșantion, funcție de utilitate, set de validare, iterație de valoare, пеmant детный узазатель VanishingGradients, varianță, variație variată, recunoaștere vocală, înțelepciune a mulțimii, Serviciul de lucrători, PaddingVariațional, ZFE ZF Net, autoencoder; Variație, Probabilist, profund, liniar, multi -jalnic ,; Pregătireapreliminară fără un profesor care folosește coduri auto multi -placi, explozie, zgomot -Issposabil, crescând, reducând,generarea, rarefierea, implementarea folosind tensorflow, compresie (SAI), consum de zgomot, implementare folosindtensorflow, agent ,; Agregarea cizmelor, prognozelor care folosesc Amestecul de previziune, Axon, Adaboost, Adagrad,Adam, Cart ,; Funcția costurilor pentru regresie, la cei mai apropiați vecini; Lle, RSA ,; Pentru compresie,transformare inversă, Q-Teaching, consolidare, RL, RMSProp, Samme, politică exterioară, genetică, descendență îngradient, dinamică Instruire, cazare dinamică, pentru metode liniare de S ѵm, valori Q, valori, regresie liniară,Apriori, Eclat, K-Medium (K-Means), Analiza componentelor principale (RSA), vizualizare, analiza clusterului ierarhic(NSA ), investiții liniare locale (LLE), maximizarea așteptărilor (maximizarea așteptărilor), detectarea anomaliilor (Detectarea anomaliei), instruire în reguli asociative (învățarea regulilor de asociere), mașini limitate Bolzman(Mașină Boltzmann restrânsă), Dimensiune inferioară; Investiția stocastică a vecinilor cu distribuție T (T-SNE), analizanucleară a componentelor principale (kernel RSA), o optimizare a momentului, actualizarea greutăților prin abaterecomparabilă, pointer obiect Instruirea TD, fără profesor, prin diferențe temporare, bazate pe modele, bazate peeșantioane, cu distribuție opusă, cu un profesor, la vecinii cei mai apropiați; Decizia deciziilor, regresia liniară,regresia logistică, rețelele neuronale, pădurile aleatorii, normalizarea pachetelor, pregătirea datelor pentru Algoritmi de învățare automată, dimensiune de scădere, pădure aleatorie ,; Comparație de algoritmi pentru regresieliniară, stocastică, gradient accelerat Nesterov, analiza componentelor principale (RSA) ,; incremental, randomizat,nuclear (KRSA), cluster ierarhic (NSA), discriminant liniar (LDA), semantic, ansamblu; GBRT, arhitectură Alexnet , ;BNN, CUDA, GOOGLENET ,; Lenet- ,; ResNet, ZF Net, rețele neuronale în sprot, atribut, histograme pentru atributenumerice, categorice ,; Combinații de atribute, procesarea textului și a atributelor categorice, rezumatul atributelornumerice, combinate, numerice ,; Bibliotecă Caffe, Deeplearning J, N O, Liblinear, Libsvm, Mxnet, Nvidia Cuda, NvidiaCudnn, Scikit-Learn ,; ; ; ; Tensorflow ,; ; ; ; ; Folosind CUDA și CUDNN,clusterul tensorflow, specificația clusterului, operațiunile de ambalare, coada tensorflow, plasarea dispozitivelor,cititori pentru diverse formate de fișiere, instalare; funcții; Tflearn, Theano, Torch, folosind Tensorboard, Block (Fold), Boosting (Boosting) ,; adaptiv, gradient ,; Bazat pe copaci, stocastici, cizme, furie, bootstrapping, tamponde protocol, bagare (bagare) ,; Vector de indicator substanțial -Gradient, Lasso -Regresie, Suport ,; -Subgradient,reprezentare vectorială, probabilitatea de evaluare a probabilităților, conservarea, actualizarea greutății greutăților Metoda de abatere comparativă, legarea greutăților, vizualizare ,; Algoritmi pentru vizualizare, date geografice,îmbunătățit, grafic, instrument de tablă de tensiune, semne, exemplu de vizualizare T-SNE, reconstrucție, investiții(încorporare), serii temporare ,; Distribuție respiratorie în timp (CTTT) ,; Instruire pentru a prezice rândurile detimp, introduceți (sau lipirea), în Scikit-Learn, eșantionarea eșantionului (prejudecăți de eșantionare), s-astratificat, zgomotul de eșantionare, derivarea, complexitatea calculului, funcția gaussiană RBF, Gausove RBF, Gessian,hipeimetrul, hipeimetrul, hipeimetrul; C, coefo, criteriu, gamma, pedeapsă, toleranță, ajustare Hiperparametre,autoritățile de reglementare; Rata de învățare, hiperploster, ipoteză, zero (ipoteză Nuli), histogramă pentru veniturimediane, pentru atribute numerice, scăderea lentă a cozilor, votare moale, gradient de gradient exploziv Creșterea gradientului; Creșterea gradientului, coborârea gradientului; Mini-pachetă,; Pachet (BGD) ,; Stochastic(SGD) ,; Media, dispariția gradienților ,; Nesterov accelerat (NAG) ,; Reducerea gradienților, politicii ,; Calcululgradienților manual, învechit, granița soluțiilor; În decizia deciziilor, tensorflow contează execuția paralelă,vizualizarea cu Folosind Tensorboard, pentru instruirea unui codificator auto multistrat, pentru a citi eșantioane deantrenament, încărcarea datelor direct din grafic, simplă, I Obiectivul pointer Replicare în grafic ,; între coloane ,;; Managementul numărătoare, programul de putere, instruire; Performanță, dispersia datelor geografice, exponențiale Regresie la rând ,; Soluție analitică, date de încărcare asincronă, actualizări asincrone ,; Vizualizare, dategeografice, serii de timp, analiză profundă a datelor, programul de date geografice, completarea datelor, încărcareadatelor, din coloană direct, preliminară, sculptură a datelor, eliminarea datelor din linii, set de date MNIST,eficiență nerezonabilă a datelor, non -prezent, detectare, instruire, instalații de stocare a datelor deschise, seturide date, statlib, meta portaluri, purificare a datelor, paralelism de date; Instruirea datelor de predare, pregătireadatelor pentru algoritmi de învățare automată, obținerea de date, spații de date într -o coadă, tampon de protocol Actualizări sincrone, citind dintr -o coloană, din multe fișiere, reprezentări eficiente de date, dualitate, acțiuni,decodificator, rețea CM, generare; Dendrita, arborele binar, luarea deciziilor ,; ; Vizualizare, granițe desoluții, binare, pentru regresie, nod de frunze, prognoze de regresie Modele sub formă de arbori de luare a deciziilor,rata de reducere, eșantionare (upsample), dispersie; Ca funcție a numărului de măsurători, un coeficient de dispersieexplicat, protecția dispersiei, diferențierea automată; în modul invers; în modul direct ,; Manual, simbolic ,; ;numeric,; Echipamente cu zero, toleranță, presupuneri pentru presupuneri, dependență de control, încărcare a datelor,poluare (impuritate), Gini ,; Măsura contaminării ,; Sarcina indicatorului subiectului, sarcina, programarea completăNP, dual, quadratică (QP), clasificare, bazată pe excluderea „sau”, regresia multidimensională, detectarea anomaliilorși instruirea asociativă Regulile, o regresie dimensională, scăderea dimensiunii, atașarea operațiunilor între sarcini,prognozarea valorii numerice țintă, a liniei, a regresiei, a rădăcinii pătrate de la eroarea MIDLCTER (RMSE),Optimizarea condiționată, decalajul Clearance -ului, Legea numărului mare , înregistrați lungimea fixă ​​binară,cantitatea de solicitare în a doua (qps) Lansarea sistemului, grădinile zoologice de modele, eșantionarea imaginiiimaginii, afișarea izometrică, imitația anexă, inițializarea Gloro, Xavier ,; Hei, Inspecție, Instrument Tensorboard ,;Virtoalenv, Interfață Ari Keras, Telearn ,; TF-SLIM, Informații despre informații, CM Endropy, Shannon Theory, excluzând„sau”, excepție OutofRangeError, set de teste ,; Creație, iterații pe valori, un canal de culoare, o hartă asemnelor, impunerea mai multor cărți de semne, straturi de cătină cu numeroase cărți de semne, autoorganizare (SOM),rădăcină pătrată dintr -o eroare Mid -Consteldratic (RMSE), cuantificarea de O rețea neuronală, apartament, memorie încache a straturilor congelate , Clasa AdaboostClassifier, Adaboostregressor, Adagradoptimizer, Adamoptimizer,BagingClassifier ,; Baseestimator, categoricalcoder, columntransformer, coordonator; DataFramemapper,DataFrameSelector, Decizia de decizie,; Decizia TREEGRESSOR, DNNCLASIFICER ,; Elasticnet, ExtratreEsClassifiater, obiectExtratreesregressor, caracteristică, ftrloptimizer, GradientBoostRegressor ,; GridSearchcv ,; Incrementalpca,kernelpca, lasso, linearsvc , ; Linearsvr, LocillalineareMedding, OnevSsoNeClassifier, OnevsRestClassifier, PCA,Ririip, PolinomialFeatures ,; Queuerunner ,; Randomforestclassifier ,; Random ForessTregressor; RandomizedSearchcv,Redge, SGDClassifier ,; ; Sgdregressor, standardcaler ,; StratifiedKfold, StratifiedShufflesPlit, SVC , ;; SVR este liniar separat, negativ, prezis, real, clasificator Bagingclassifier, SVM ,; O formă dublă folosindmiezul RBF, liniar ,; Prognoza, cu un decalaj dur, cu un decalaj moale, cu un nucleu polinomial, binar, multi -clasa,secvențe, secvențe, cu votare Clasificare,; SVM, liniar, neliniar, cu un gol dur, cu un gol moale ,; cu un decalajlarg; Cu adevărat negativ, cu adevărat pozitiv, fals negativ, multi -slifting, multi -valoric, multi -clasa, spam, Cluster, tensorflow ,; Rappellizarea rețelelor neuronale, specificația clusterului, clustering ,; Schimbare ierarhică,de covarizare Codificarea cu o stare activă, unitară, codificare, codificator, rețea CM, minte recunoscută, colectivă,compoziție, componentă principală (PS), analiză incrementală (IRSA), analiză randomizată, transportor, transformare,conexiune, proiectarea semnelor, container de resurse, Controlor de servicii, Cortex cerebral câmp local receptor CONSTRUCTIE, CONTRULAREA DE CORELATIE DE INDICATOR DE Obiecți a Pieronului, Standard, Linia de Motocadă a Motocadei,Coeficientul de încredere, Corelația Pieron, dispersia explicată, ramificarea la intrare (Fan-in), ramificarea deieșire, expansiunea, curba ROC ,; Zona de sub curba ROC, antrenament ,; Pentru un model liniar, pentru Modelpolinomial, precizie și completitate (PR), criterii de lucru, Lagrange, generalizate, Lasso-Regression, Lasso-RegionsVector, LOVE LOTENT, pădure de copaci în special aleatori, aleatoriu ,; PE; Algoritmul de pădure aleatoriu, analizadiscriminantă liniară (LDA), element liniar îndreptat, pierdere logaritmică; Logistică, logistică Regresie ,; Logit(logit), investiții liniare locale (LLE), un capăt al secvenței (EOS), I Pointer Pointer Markov -Procese de luare adeciziilor (MDP) ,; Gold de numpy ,; Maestru, scalare pe minimax, semne, matrice de greutăți, componente principale,inexactități; Skipy, rarse , împrăștiere, mașină Bolzman ,; limitat (RBM) ,; Învățare automată (MO) ,; ; ;; ; Q-Teaching ,; Autonom, ansamblu, software; reguli asociative; Fără profesor Programul extern,profund, de învățare, dinamic ,; Pentru a optimiza premiile, evitarea recalificării prin diferențe de reglementare,temporare, model bazat pe date bazate pe diversitate, bazate pe modele; pe baza probelor; rețele neuronale,; ;Principalele probleme ale învățării automate, date de calitate slabă, necooperarea datelor de predare, cantitateainsuficientă de date de instruire, date de instruire non -prezente, generalizare excesivă, rezidual, pachet,transmiterea cunoștințelor, planificarea vitezei de formare, Un codist auto la un moment dat, potrivit Hebbu, un proiectcomplet de învățare automată , Gradual, preliminar ,; Modele aproximate, cu o ședință, cu un decalaj maxim, cu armare,; ; cu profesorul; Viteza de instruire, tipuri de sisteme de învățare automată, parțial ,; Măsurați poluarea F,Jini, meta portaluri, meta-studenți, mixer CM, etichete, metodă Aplicați grade, grad de calcul ,; Corr, funcție dedecizie ,; Descrieți, Dot, Dropna, Export GraphViz, Factorize, Fit ,; ; Fit Transform ,; Obținețifuncționare după nume, obțineți operațiuni, obțineți parame, obțineți tensor pe nume, cap, hist ,; Informații,transformare inversă, alăturați -vă ,; k cei mai apropiați vecini, Minimizeo ,; Următorul lot, parțial, predicto ,; ;Prezice Proba; Renunțați, resetați, restaurați, salvați, scor, setați parame, prezice în scenă , Pas, la O,Transform ,; Numărul valorii, ansamblul ,; Multiplicatori Lagrange, vectori de suport (SVM) ,; Dinamic,clasificarea SVM, redusă parametric, descompuneri ale matricei Andre-Louis Holets, reglementarea modelului polinomial,subspațiu aleatoriu, zone aleatorii, abatere comparativă, stocastică Descendența gradientului (SGD), măsura metrică F,completitudinea (rechemarea), precizia (precizia), mini-pachetul ,; Scalare multidimensională (MDS), diversitate(numeroasă), multiplicator Karusha-Kuna-Tactker (CCP), Lagranha, moda statistică, modelarea obligațiunilor localeliniare, a obiectului SVM Parametrilly redus, Tensorflow Reutilizat, analiză Modele, cutie albă, recuperare, grădinizoologice de modele, curbe de învățare pentru un model liniar, pentru un model polinomial, liniar, rulează folosindScikit-Learn, Simple, Regression ,; prognoze; Costurile MSE, reglementarea, traducerea automată este simplă, non-parametrică, antrenament de modele; paralelism modele, parametrice, re -utilizarea, polinomială, regresie,generare; Subisal, conservare, reglare precisă, cutie neagră, membru gratuit (termen de interceptare), deplasare(termen de prejudecată), modulul Pandas, Pip Scikit-Learn ,; început,; Modularitate, moment, vector, observație, setde date mnist,; ROII elvețian, întreprins, scăzând dimensiunea la două dimensiuni, asimetrice, două dimensiuni, testare,; liniar separat, educațional, marcat, proiecție la măsurători D, scăzând dimensiunea, verificarea ,; Compresiaunui set de date mnist, trei -dimensiune, atribuire, luând în considerare rata de actualizare, care se află (subțire) date de instruire, neuron biologic, aport, artificial, număr pe strat ascuns, implementat în timp, recurente, deplasări, stocastice, rețele neuronale; Arhitectură fără profesor,arhitectură biologică (BNN), profundă, obișnuită, artificială (ANN) ,; Folosind o rețea neuronală, cuantificând o rețeaneuronală, instruire, recurentă (RNN) ,; BASIC, profund, creativ, instruire, supun indicele pachetului (CNN) ,;Arhitectură, configurația precisă a hiperparametrelor, parțial, eterogenitatea Gini, neocognitron, instabilitate, normă,Euclidov, Manhattan, normalizare, răspuns local, răspuns local (LRN), pachet, detectarea anomaliilor, o imagine falsă,un eșantion neutilizat (OOB) , Feedback, distribuție inversă, date de instruire, set de instruire; Pentru învățarea cuprofesorul, marcat, proiecție la măsurători D, sensibilitate la detaliile setului de instruire, sensibilitatea lavirajele setului de instruire, eșantion de instruire, instruire, coordonator de obiecte de învățare automată CM,DataFrame ,; FileWriter, Pandas, DataFrame ,; Python, Queuerunner, RandomShufflequeue, RunOptions, Saver ,;TextLineReader, restricția este activă, sub formă de inegalitate, sub formă de egalitate, memoria RAM a controluluiprocesorului grafic, funcționarea Dequeue ,; Depuneți mulți, Dequeue până la, citiți, tensorflow, sursă , Atașareaoperațiunilor între sarcini, plasarea operațiunilor pe dispozitive, moale, simplă, înregistrarea plasamentelor, ofuncție de plasare dinamică, cu numere duale, cititor, vector de suport ,; Optimizator, Adagrad, RMSProp,SyncReplicasOptimizer, Moment, Senior (șef), Optimizarea Adam, Moment ,; Recunoașterea condiționată, optică a semnelor (OCR), Landmark (Landmark), Abatere comparabilă, Absolut mediu, Standard, Deconectare; Cota de oprire, afișajulizometric (ISOMAP), evaluatorul (estimatorul), indicatorul obiectului de coadă FIFO (First-in First-Out),PaddingFiqueue, RandomShufflequeue ,; Tensorflow ,; Închiderea cozii, extragerea datelor de la coadă, motoare, markeri, Amplasarea datelor, purificarea datelor, analiza erorilor, restabilirea, ieșirea prin probă, generalizare, rezidual,prototip de restaurare, mediu-industrial (MSE), mediu mediu (mai), pachet de grafViz, mini-pachet ,; Normalizareapachetului, un algoritm de normalizare a pachetului, folosind TensorFlow, Memoria cerințelor K Memory, Cell Memory ,;Paralelism de date; cu actualizări asincrone; Cu actualizări sincrone, paralelism model, calcule paralele, parametruhiperparameter ,; Reglare, soia hiperparameter, hiperparameter gamma, hiperparameter de toleranță, hiperparameterregulator, hiperparamameter C, parametri model, viteză de învățare (Rata de învățare), Eficiența parametrilor,verificarea încrucișată, Scikit-Learn, utilizarea variabilă a articulațiilor, fictivă, fragmentarea, recalificarea(suprapunerea) datelor de instruire, persepthron; Diagrama Perseptron, clasic, multi -pelayer ,; Sarcina clasificăriiXOR, instruire folosind interfața tensorflow la nivel înalt, regula de învățare a persepthronului, funcția pas Folositîn perlepte, teorema privind convergența persepthronului, eroarea cauzată de non-replii, neperturbată, reglareahiperparametrelor, căutarea lemnului de către Monte Carlo, randomizată, zăbrele, legături, afișare polinomială agradului al doilea, politică ,; E-set, sub formă de rețele neuronale, gradienți ai politicii ,; Cercetare, stocastică Complet (reamintire), lățime de bandă de saturație, scădere a dimensiunii ,; Neliniare, tehnici de scădere adimensiunii, cu protecția simultană a conexiunilor, I Obiectul IDATOR PRETUL DE LUMITARE A DECIZIEI, PENTRU SECȚIUNEA,Pierderea logaritmică, fluxul de fluxuri pentru operațiuni de decorare, intraoperator, interoperator, regula de învățarea persepthronului, hebba , lanț, corectitudine (assigus), primirea LLE, semn, alegerea semnelor, evidențiereasemnelor; Proiectarea caracteristicilor, scalarea caracteristicilor, rambursate (rare), crearea de noi semne,verificare, traversare ,; Prognoză ,; Adaboost, agregarea prognozelor folosind o prognoză de amestecare, dezvoltareade prognoze Folosind o metodă SVM redusă parametric, un clasificator cu votare grea, un clasificator liniar SVM, unmodel de regresie liniară, un model de regresie sub formă de arbori de luare a deciziilor, un previzual (predictor) ,;Prezicerea valorii numerice vizate, a programului Tensorflow, recunoașterea optică a semnelor, spam -ului de filtrare,programarea Quadratic (QP), abordare cu învățare automată, tradițională, proiecție, proiecție la măsurători D,indicatori de performanță de performanță, funcție derivată ,; Privat, blestemul dimensiunii; Prototip (pre-imagine),spațiul de nume, latent, Parametri de model, semne, protocol GRPC, percentilă (percentilă), managementul grafic al procesorului operațional Memorie, grup de flux intraoperator, pentru paralelizarea operațiunilor, caracteristicile interoperatorii, de lucru alereceptorului (ROC), raza de adâncime, deplasarea (dropconnect), dimensiunea dimensiunii; Neliniare (NLDR), tehnicipentru scăderea dimensiunii, cu protecție simultană a conexiunilor, blestem de dimensiune; Reductivitate, mintecolectivă, pointer obiect Încetarea timpurie, recunoașterea vorbirii, distribuția normală (Gaussovo) ,; Distribuțiaopusului, distanța (discrepanța) a Kulbak-Labler ,; Regresie ,; SVM, un liniar, care folosește un nucleu polinomial, cuun gol îngust, cu un gol larg, canotaj; Decizie analitică, arbore de adopție Decizii pentru regresie, la mijloc,lasso- ,; Lasso-Regions Vector-Subgrader, liniar, folosind TensorFlow, comparând algoritmi pentru regresie liniară,logistică ,; Adânc, multi -cross ,; Polinomial, multidimensional, unul -dimensional, polinomial ,; Grad ridicat,reglementare, bazat pe oprirea, cu încetarea timpurie Tikhonova, vezi Regresie, Rowing, membru al reglementării,reconstrucției, neuronilor recurente, replică de rezervă; Replicare în interiorul numărului, între coloane ,; Resurseale containerelor de resurse; Un pachet, un nucleu de pachet, un rezumat (rezumat), conexiunea este eludant ,; ;Overfield, prescurtat, căutând conexiuni, sesiune, local, descoperire Sesiune, distribuită, server Jupyter,Tensorboard, TensorFlow Lansare, Ann ,; CNN ,; DBN ,; DNN, configurație standard, DQN ,; adânc ,; Dinamic,Target, FNN, Resnet- ,; Rnn ,; Arhitectură biologică Rețele neuronale, Deep Trust (DBN) ,; „Codist-decoder”,neural ,; Deep (DNN) ,; Cuda, obișnuit, instruire folosind tensorflow, rezidual, recurent, I Index obiectiv (ANN) ,;Folosiți, antrenament ,; Divizare latifere, răspândire directă (FNN), recuperare (RNN),; Deep, Creative, Training,Buckthorn (CNN) ,; Arhitectură, setarea precisă a hiperparametrelor, parțial, cuantificarea rețelei neuronale, rezidual(RESNET) ,; Generarea, adversar, implementarea unei rețele în timp, recunoașterea, cu memoria asociativă, temperaturarețelei, topologia rețelei, hopfield ,; DQN țintă, elastic, compresie (contracție) Semnal,; Synaps (Synapse),descompunere singulară (SVD), sistem de servire Tensorflow, învățare automată, fără profesor, cu întărire, cu unprofesor, algoritmi de învățare, învățare parțială, viteză de învățare ,; Viteza adaptivă, descendentă, stratul deintrare, ieșirea, adăugarea zero, congelarea, memoria cache, concatenarea până la adâncimi, circulația unui pachet,asociere la maxim, asociații la mijloc, unificator ,; Pachetele în profunzime, sunt catarane ,; Calculul producțieineuronului, sepable, cu multe cărți de semne, transpuse, ascunse; numărul de neuroni pe un strat ascuns, îngustare ,;Serviciu Cloud Machine Learning, pentru rularea graficelor TensorFlow, Performer, Master, Mixer, Deplasare (Bias) ,;probe ,; Datorită vizualizării informațiilor a datelor, consistenței, specificității, cartpolei, crearea unui mediuizolat, armonic mediu, standardizare, abatere standard, stocator (stivuire) ,; Stride (pas), coborâre Dimensiuni,Strata (Strata), Subdiffer, cititor multi -încălzitor, Indicele obiectiv al Bodyendron (Telodendria), Tensor (Tensor),Elemente de procesare a tensiunii (TPU), Teorema Mercer, despre absența micului dejun liber, despre convergența luiPersetron, teoria informațiilor lui Schonnon; Echilibru termic, tehnologie MapReduce, topologie de rețea, punctstaționar, precizie Transformator, Standardscaler, Special, PSA Transformation Reverse, cascadorie nucleară, pentru oafișare polinomială a gradului doi, componentă de economisire, frunze, evaluarea nodului folosind tensorflow, cu multecoaste, controlul dependenței de control, ecuația este normală, optimitatea lui Vellman ,; Starea CCP, suplimentarea non-stabilității Instalarea TensorFlow, dispozitiv (dispozitiv), multe dispozitive pe o singură mașină, un fișier deeveniment, filtru, extins, spam, CSV, format Tfrecords, înregistrare binară a variabilelor, cadru, argmax, divizare,polol AVG, lot, lot, lot , Lot Lot Join, clip by norm, clip by Valoare, matrice de confuzie ,; Cross Val Predict ,; ;Scor încrucișat Val; Densq ,; Dequeue multe ,; Depuneți până la, dispozitiv, reducere și normalizare recompense ,;Abandon, RNN dinamic, scor FL, obțineți variabile, grad, meta de import Grafic,; Imread, Imshow ,; În Top K, Inv, Make,Matshow, Max Norm, Max Norm Regularizer, Max Pool, Eroare medie pătrată, Pointer Object Minimizeo, Neuroni, Plot Cifre, curbă de reamintire a preciziei, reducerea mediei, relu, randintq, uniformă aleatorie, relu , ; ResHapeq,; ROC Curve, Run, Scatter Matrix, Shuffle Lot, SHUFFE BATCH Alătură, entropie încrucișată sigmoidă cu logite, rotunjiresoftMax încrucișată cu logitsq ,; Test de tren împărțit; Porniți alergătorii de coadă, RNN static, șir Producător deintrare, Groupo, normalizare a lotului NN, despărțire de testare a trenului; UNSTACKQ, Inițializator de scalare avariației, activare ,; Elu ,; Relu ,; Cu scurgeri, tangene hiperbolice, logistică ,; Nesaturat, proximitate, convex,Gaussian RBF, clasificator liniar SVM, -generator, hiperbolic Tangens, ipoteze, plasare dinamică, costuri ,; ;MSE ,; Algoritmul CART, pentru clasificare, pentru regresie, sub formă de entropie încrucișată, pentru regresie decanotaj, pentru regresie lasso, regresie logistică, eșantion de antrenament solitar, rețea elastică, cercetare CART,Lagrange, generalizat, logistică ,; Multicibil; Mai multe, continue, normalizate exponențiale, buclă ,; Utilitate,polinomială ,; Adaptabilitatea, prognoza sistemului, funcția derivată, radialul de bază (RBF), soluții; Oo, sigmoidal,semne, costuri, pas, hevisaid, țintă, derivat privat; Energie, Hebb Donald, instruire Potrivit hash, iadul gunoiului,canalul de culoare, lanțul Markov, regula lanțului, antrenamentul parțial, derivatul privat, indicatorul subiectuluieste numărul dual, membrul regulatorului, sensibilitatea (sensibilitate) ,; Teoria Shannon a informațiilor lui Shannon,scalare multidimensională (MDS), Gateway de intrare; zi liberă, uitând; Controlerul gateway -urilor Eșantionareazgomotului, elementul de prag liniar, procesarea tensiunii (TPU), liniar exponențial, entropie, cruce, prescurtare aentropiei, episodului, epocii, eficienței parametrilor, analiza nucleară a componentelor principale (KRSA), truculuinuclear ,; Calculul unui membru de deplasare folosind un truc nuclear pentru un afișaj polinomial gradul doi, nucleu ,;; Gausovo RBF; Pe baza distanței de Levenstein, unitare, polinomială, nuclei gaussiene comune RBF, liniar, polinomial,sigmoidal, cătină, coardă, procesare limbaj, celula jacobiană, RNN pentru memorie lungă pe termen scurt (LSTM), memorie,recurentă de bază, controlată BLOC (GRU), I INTRODUCERE INTRODUCEREA ÎNVĂȚĂTORULUI MAMENE folosind Python Guide pentrua lucra cu specialiștii Andreas Müller Sara Gwido wwwwimsspubling com isbn Această carte completă este o sursă excelentăde informații pentru toți cei care sunt asamblați Pentru a utiliza învățarea automată în practică, acum învățareaautomată a devenit o parte integrantă a diferitelor proiecte comerciale și de cercetare și nu ar trebui să credem căacest domeniu este prerogativul companiilor exclusiv mari, cu echipe de analiști puternici, această carte vă va învățamodalități practice Clădiri ale sistemelor MO, chiar dacă sunteți încă un începător în acest domeniu, explică îndetaliu toate etapele necesare pentru a crea un proiect de învățare automată de succes folosind limbajul Python șiScikit-Learn, Numpy și Matplotlib, autorii și-au concentrat atenția Exclusiv pe aspectele practice ale utilizăriialgoritmilor de învățare automată, lăsând justificarea matematică, această carte este adresată specialiștilor carerezolvă sarcini reale și, deoarece sfera de aplicare a metodelor MO este aproape nelimitată, după ce ați citit aceastăcarte, puteți construi de unul singur Sistemul de operare de învățare automată în orice domeniu științific saucomercial de vânzare creează o rețea neuronală Tarik Rashid creează o rețea neuronală de idei matematice care se află înopera <și lvy'm a Ceozesului Nedronntk și în faza de Siidbnii din rețeaua Sobennpineron pe rețeaua Sobennpineron pepyfhem și Tarik Rashid wwwww Williamspubling com Această carte este o introducere în teoria și practica creăriirețelelor neuronale, este destinată celor care doresc să știe care sunt rețelele neuronale, unde sunt folosite și cum săcreeze o astfel de rețea, nu Având experiență în acest domeniu, prezentarea materialului este însoțită de o descrieredetaliată a creării pe etape a unui cod complet funcțional, care implementează o rețea neuronală în Python și estecapabilă să fie chiar efectuată pe un astfel de computer în miniatură ca Raspberry Pi Zero Zero Principalele subiecte Cărți rețele neuronale și sisteme de inteligență artificială; structura rețelelor neuronale; Semnalele de netezirerăspândite prin rețeaua neuronală folosind funcția de activare; instruirea și testarea rețelelor neuronale; Mediuinteractiv de programare IPYTHON; Recunoașterea imaginilor folosind rețele neuronale ISBN la vânzare Rețele neuronaleCurs complet -Simon Khaikin, cartea discută principalele paradigme ale rețelelor neuronale artificiale Materialul prezentat conține o justificare matematică strictă a tuturor paradigmelor rețelei neuronale, ilustrate prinexemple, descrierea experimentelor pe calculator, conține multe sarcini practice, precum și o bibliografie extinsă Cartea analizează, de asemenea, rolul rețelelor neuronale în rezolvarea problemelor de recunoaștere a imaginilor,gestionarea și procesarea semnalelor structurii cărții este foarte convenabilă pentru dezvoltarea cursurilor pentrupredarea rețelelor neuronale și a calculelor intelectuale, cartea va fi utilă pentru ingineri, specialiști în câmpulcomputerului Științe, fizicieni și specialiști în alte domenii, precum și pentru toți cei interesați de rețeleleneuronale ISBN artificiale la vânzare, rețele neuronale scurte carte de referință Robert Kallan www Williamspubling comAceastă carte este prima în curs de curs în neural Rețelele ei trebuie să dezvăluie conceptele de bază și să studiezemodelele de bază ale rețelelor neuronale cu o profunzime pe care un programator cu experiență o poate implementa oastfel de rețea în limbajul de programare care îi va părea de preferință în cartea principalele modele sunt luate înconsiderare Rețelele neuronale, importante pentru înțelegerea fundamentelor subiectului studiat, sunt discutateconexiunile dintre rețelele neuronale și conceptele tradiționale din domeniul inteligenței artificiale ISBN la vânzareApplied Machine Learning folosind Scikit-Learn și TensorFlow datorită unei serii de realizări recente profunde profundeInstruire A consolidat semnificativ întreaga zonă a învățării automate în timpul nostru, chiar și programatorii care nuștiu aproape nimic despre această tehnologie pot utiliza instrumente simple și eficiente pentru implementareaprogramelor care sunt capabile să învețe pe baza datelor din acest ghid practic prezentat Ce și cum ar trebui să sefacă prin aplicarea unor exemple specifice, un minim de teorie și două cadre Python Producția de producție, condusă desclipici și tensorflow-autorul cărții Orlyan Gerron vă va ajuta să obțineți o idee intuitivă de concepte și instrumentedestinate pentru Veți învăța construcția sistemelor intelectuale despre o serie de tehnici, începând cu o regresieliniară simplă și ajungând treptat la rețele neuronale profunde, având în vedere prezența în fiecare capitol deexerciții concepute pentru a consolida ceea ce ați învățat, este necesară doar experiență pentru a începe munca Explorați zonele de programare ale învățării mașinilor, în special rețelele neuronale utilizează Scikit-Learn pentru aurmări proiectul de învățare automată de la începerea până la încheierea unor modele de instruire, inclusiv metodele devectori de sprijin, arbori de luare a deciziilor, păduri aleatorii și metode de ansamblu utilizează bibliotecaTensorflow Pentru a construi și instrui rețele neuronale, studiați arhitectura rețelelor neuronale, inclusiv rețele descânteie, rețele recurente și instruire profundă cu consolidarea setărilor pentru instruire și scalarea rețelelorneuronale profunde folosesc exemple practice de cod, fără a stăpâni excesiv teoria mașinii Pregătirea sau detaliilealgoritmilor Orelen Gelon - Machine Consultant, fost angajat al Google, timp de un an, a condus echipa de clasificarevideo YouTube timp de un an, a fost, de asemenea, fondatorul și șeful departamentului tehnic din WiFirst Furnizorulprincipal de servicii de acces wireless în Franța și în anul fondatorului și șefului Departamentului Tehnic de laPolyConseil, care controlează acum utilizarea comună a analizei de date a datelor Autolib Electric Cares Instruireprofundă în învățarea automată folosind nivelul Python pentru utilizatorii de calificări secundare și înalte ISBN Li»Scanați -l! Nu Ozon ru ikd l com ledia Ireilly 